Zum Hauptinhalt springen
Was ist Monitor? | SAFe DevOps Health Radar
  1. Blogs/

Was ist Monitor? | SAFe DevOps Health Radar

Autor
Romano Roth
Ich bin überzeugt: Der nächste Wettbewerbsvorteil ist nicht AI selbst, sondern die Organisation drumherum. Als Chief AI Officer bei Zühlke arbeite ich mit C-Level-Führungskräften daran, Unternehmen zu bauen, die wahrnehmen, entscheiden und sich kontinuierlich anpassen. Seit über 20 Jahren mache ich diese Überzeugung zur Praxis.
Frag die KI über diesen Artikel

Sobald unsere Features in der Produktion deployed und verifiziert sind, müssen wir genau beobachten, wie sie sich verhalten. Monitor ist die Aktivität im SAFe DevOps Health Radar, die sich darauf konzentriert, Systemleistung, Endnutzerverhalten, Incidents und den Geschäftswert zu verfolgen. In diesem Video erkläre ich, was Monitoring umfasst und warum es für die richtigen Entscheidungen über unsere Features unverzichtbar ist.

Wo Monitor in die Pipeline passt
#

Der SAFe DevOps Health Radar beginnt mit guten Ideen vom Kunden oder Business. Wir extrahieren eine Hypothese, erstellen ein Epic, forschen gemeinsam nach dem echten Kundenbedürfnis, entwerfen die minimale Architektur und brechen das Epic in Features herunter. Wir entwickeln User Stories, committen Code, bauen deploybare Pakete, testen sie, deployen in die Staging-Umgebung und dann in die Produktionsumgebung. Nachdem wir verifiziert haben, dass alles in der Produktion funktioniert, müssen wir überwachen, was dort passiert.

Warum wir überwachen
#

Monitoring in der Produktion bedeutet, dass wir Features verfolgen können, um die Systemleistung zu verstehen, Incidents zu identifizieren, das Endnutzerverhalten zu beobachten und den gelieferten Geschäftswert zu messen. Wir überwachen, weil wir sicherstellen wollen, dass die Produktion so reibungslos wie möglich läuft. Aber es geht um mehr: Wir wollen auch die Geschäftshypothese validieren. Im Hypothesis-Schritt haben wir definiert, welchen Geschäftswert wir erwarten. Im Monitor-Schritt messen wir, ob wir diesen Wert tatsächlich liefern.

Full-Stack-Telemetrie
#

Für effektives Monitoring nutzen wir Full-Stack-Telemetrie. Im Architect-Schritt dieser Serie haben wir die Architektur für Betriebsfähigkeit entworfen und entschieden, welche Daten geloggt werden müssen. Im Develop-Schritt haben wir das gesamte Logging implementiert. Im Monitor-Schritt sammeln wir diese Log-Einträge und speisen sie in ein Telemetriesystem ein, damit wir sie durchsuchen und analysieren können.

Es ist wichtig, verschiedene Arten von Daten zu loggen:

  • Applikationsdaten, um technische Probleme und Fehler nachzuverfolgen
  • Geschäftsdaten, um zu validieren, ob die Geschäftshypothese zutrifft

Dashboards und visuelle Darstellungen
#

Rohe Telemetriedaten sind schwer zu lesen. Deshalb nutzen wir Dashboards, um alles zu visualisieren. Diese visuellen Darstellungen machen es einfach, die Informationen auf einen Blick zu interpretieren.

In diesen Dashboards können wir zeigen:

  • DevOps-Metriken wie letztes Deployment, letzter Ausfall und durchschnittliche Lead Time
  • Endnutzerverhalten, um zu verstehen, wie Features genutzt werden
  • Geschäftswert-Trends, um zu verfolgen, ob wir liefern, was wir versprochen haben

Es ist wichtig, dass die gesamte Organisation Zugang zu diesen Dashboards hat, nicht nur das Entwicklungsteam. Transparenz über die gesamte Organisation hinweg ermöglicht bessere Entscheidungen.

Federated Monitoring
#

Eine einzelne Applikation isoliert zu überwachen reicht nicht aus. Applikationen haben Abhängigkeiten zu anderen Applikationen und zur darunterliegenden Infrastruktur. Wir müssen alle Telemetriedaten in einer Federated-Monitoring-Plattform konsolidieren, die eine ganzheitliche Sicht bietet.

Nur mit Federated Monitoring können wir Leistungsprobleme und Incidents über Applikationen und Infrastruktur hinweg nachverfolgen. Diese konsolidierte Sicht ist entscheidend, um das Gesamtbild zu verstehen.

AIOps: Künstliche Intelligenz für den IT-Betrieb
#

Wenn wir mehrere Applikationen und die Infrastruktur überwachen, wird die Menge an Datenpunkten, Events und Alerts überwältigend. Wir stehen vor einem Big-Data-Problem.

AIOps hilft, indem es:

  • Daten aggregiert aus allen Quellen
  • Events korreliert über die gesamte Applikationslandschaft
  • Muster analysiert, um aussagekräftige Erkenntnisse zu gewinnen
  • Ursachen vorhersagt, damit wir Probleme schneller beheben können
  • Anomalien erkennt, bevor sie zu Incidents werden

AIOps-Tools visualisieren alle Abhängigkeiten in der Applikationslandschaft und ermöglichen es, Probleme durch die gesamte Kette zu verfolgen.

Was Monitoring liefert
#

Wenn wir effektiv überwachen, gewinnen wir mehrere Fähigkeiten:

  • Feature-Tracking: Wir können sehen, ob Features genutzt werden und wie Endnutzer mit ihnen interagieren
  • Systemleistung: Wir beobachten, wie das System in der Produktion performt, einschliesslich API-Antwortzeiten und Ressourcenverbrauch
  • Incident-Prävention und -Analyse: Monitoring hilft uns, Incidents zu verhindern und sie zu analysieren, wenn sie auftreten
  • Messung des Geschäftswerts: Wir können messen, ob die Hypothese vom Anfang der Pipeline zutrifft, und dem Business ermöglichen zu entscheiden, ob mehr in ein Feature investiert, es beibehalten oder entfernt werden soll

Die Reifegrade
#

Der SAFe DevOps Health Radar bietet eine Reifegradbeurteilung für Monitor:

  • Sit: Kein Feature-Level-Monitoring in der Produktion vorhanden. Nur Infrastruktur-Monitoring ist implementiert.
  • Crawl: Features loggen nur Fehler und Exceptions. Die Analyse von Events erfordert das manuelle Korrelieren von Logs aus mehreren Systemen.
  • Walk: Features loggen Fehler, Benutzeraktivitäten und andere Events. Daten werden manuell analysiert, um Incidents zu untersuchen und den Geschäftswert von Features zu messen.
  • Run: Full-Stack-Monitoring ist implementiert. Events können über die gesamte Architektur korreliert werden. Daten werden über systemspezifische Dashboards dargestellt.
  • Fly: Eine Federated-Monitoring-Plattform bietet zentralen Zugang zu Full-Stack-Einblicken. Daten werden genutzt, um Systemleistung und Geschäftswert zu bewerten.

Den Feedback-Loop schliessen
#

Der wichtigste Aspekt des Monitorings ist, dass es den Feedback-Loop schliesst. Im Hypothesis-Schritt haben wir den Geschäftswert definiert, den wir schaffen wollen. Indem wir diesen Geschäftswert in der Produktion verfolgen, ermöglichen wir dem Business, die richtigen Entscheidungen zu treffen: Sollen wir mehr in dieses Feature investieren oder weniger? Sollen wir dieses Feature für alle Nutzer aktivieren oder es komplett deaktivieren?

Monitoring ist das entscheidende Element, das es uns ermöglicht, das Richtige richtig zu bauen.

Wichtige Erkenntnisse
#

  • Full-Stack-Telemetrie nutzen. Sowohl Applikationsdaten als auch Geschäftsdaten loggen, um ein vollständiges Bild zu erhalten.
  • Mit Dashboards visualisieren. Monitoring-Daten für die gesamte Organisation zugänglich und leicht interpretierbar machen.
  • Federated Monitoring implementieren. Die Sicht auf eine einzelne Applikation reicht nicht aus. Man braucht den Überblick über alle Applikationen und die Infrastruktur.
  • AIOps einsetzen. Wenn das Datenvolumen die menschliche Kapazität übersteigt, KI nutzen, um zu aggregieren, zu korrelieren und Anomalien zu erkennen.
  • Geschäftswert messen. Monitoring dreht sich nicht nur um Verfügbarkeit. Es geht darum zu validieren, ob die Geschäftshypothese zutrifft.
  • Den Feedback-Loop schliessen. Monitoring-Erkenntnisse nutzen, um fundierte Entscheidungen zu treffen, welche Features beibehalten, verbessert oder entfernt werden sollen.