Was ist Monitor? | SAFe DevOps Health Radar

Frag die KI über diesen Artikel

Sobald unsere Features in der Produktion deployed und verifiziert sind, müssen wir genau beobachten, wie sie sich verhalten. Monitor ist die Aktivität im SAFe DevOps Health Radar, die sich darauf konzentriert, Systemleistung, Endnutzerverhalten, Incidents und den Geschäftswert zu verfolgen. In diesem Video erkläre ich, was Monitoring umfasst und warum es für die richtigen Entscheidungen über unsere Features unverzichtbar ist.

Wo Monitor in die Pipeline passt
#

Der SAFe DevOps Health Radar beginnt mit guten Ideen vom Kunden oder Business. Wir extrahieren eine Hypothese, erstellen ein Epic, forschen gemeinsam nach dem echten Kundenbedürfnis, entwerfen die minimale Architektur und brechen das Epic in Features herunter. Wir entwickeln User Stories, committen Code, bauen deploybare Pakete, testen sie, deployen in die Staging-Umgebung und dann in die Produktionsumgebung. Nachdem wir verifiziert haben, dass alles in der Produktion funktioniert, müssen wir überwachen, was dort passiert.

Warum wir überwachen
#

Monitoring in der Produktion bedeutet, dass wir Features verfolgen können, um die Systemleistung zu verstehen, Incidents zu identifizieren, das Endnutzerverhalten zu beobachten und den gelieferten Geschäftswert zu messen. Wir überwachen, weil wir sicherstellen wollen, dass die Produktion so reibungslos wie möglich läuft. Aber es geht um mehr: Wir wollen auch die Geschäftshypothese validieren. Im Hypothesis-Schritt haben wir definiert, welchen Geschäftswert wir erwarten. Im Monitor-Schritt messen wir, ob wir diesen Wert tatsächlich liefern.

Full-Stack-Telemetrie
#

Für effektives Monitoring nutzen wir Full-Stack-Telemetrie. Im Architect-Schritt dieser Serie haben wir die Architektur für Betriebsfähigkeit entworfen und entschieden, welche Daten geloggt werden müssen. Im Develop-Schritt haben wir das gesamte Logging implementiert. Im Monitor-Schritt sammeln wir diese Log-Einträge und speisen sie in ein Telemetriesystem ein, damit wir sie durchsuchen und analysieren können.

Es ist wichtig, verschiedene Arten von Daten zu loggen:

Applikationsdaten, um technische Probleme und Fehler nachzuverfolgen
Geschäftsdaten, um zu validieren, ob die Geschäftshypothese zutrifft

Dashboards und visuelle Darstellungen
#

Rohe Telemetriedaten sind schwer zu lesen. Deshalb nutzen wir Dashboards, um alles zu visualisieren. Diese visuellen Darstellungen machen es einfach, die Informationen auf einen Blick zu interpretieren.

In diesen Dashboards können wir zeigen:

DevOps-Metriken wie letztes Deployment, letzter Ausfall und durchschnittliche Lead Time
Endnutzerverhalten, um zu verstehen, wie Features genutzt werden
Geschäftswert-Trends, um zu verfolgen, ob wir liefern, was wir versprochen haben

Es ist wichtig, dass die gesamte Organisation Zugang zu diesen Dashboards hat, nicht nur das Entwicklungsteam. Transparenz über die gesamte Organisation hinweg ermöglicht bessere Entscheidungen.

Federated Monitoring
#

Eine einzelne Applikation isoliert zu überwachen reicht nicht aus. Applikationen haben Abhängigkeiten zu anderen Applikationen und zur darunterliegenden Infrastruktur. Wir müssen alle Telemetriedaten in einer Federated-Monitoring-Plattform konsolidieren, die eine ganzheitliche Sicht bietet.

Nur mit Federated Monitoring können wir Leistungsprobleme und Incidents über Applikationen und Infrastruktur hinweg nachverfolgen. Diese konsolidierte Sicht ist entscheidend, um das Gesamtbild zu verstehen.

AIOps: Künstliche Intelligenz für den IT-Betrieb
#

Wenn wir mehrere Applikationen und die Infrastruktur überwachen, wird die Menge an Datenpunkten, Events und Alerts überwältigend. Wir stehen vor einem Big-Data-Problem.

AIOps hilft, indem es:

Daten aggregiert aus allen Quellen
Events korreliert über die gesamte Applikationslandschaft
Muster analysiert, um aussagekräftige Erkenntnisse zu gewinnen
Ursachen vorhersagt, damit wir Probleme schneller beheben können
Anomalien erkennt, bevor sie zu Incidents werden

AIOps-Tools visualisieren alle Abhängigkeiten in der Applikationslandschaft und ermöglichen es, Probleme durch die gesamte Kette zu verfolgen.

Was Monitoring liefert
#

Wenn wir effektiv überwachen, gewinnen wir mehrere Fähigkeiten:

Feature-Tracking: Wir können sehen, ob Features genutzt werden und wie Endnutzer mit ihnen interagieren
Systemleistung: Wir beobachten, wie das System in der Produktion performt, einschliesslich API-Antwortzeiten und Ressourcenverbrauch
Incident-Prävention und -Analyse: Monitoring hilft uns, Incidents zu verhindern und sie zu analysieren, wenn sie auftreten
Messung des Geschäftswerts: Wir können messen, ob die Hypothese vom Anfang der Pipeline zutrifft, und dem Business ermöglichen zu entscheiden, ob mehr in ein Feature investiert, es beibehalten oder entfernt werden soll

Die Reifegrade
#

Der SAFe DevOps Health Radar bietet eine Reifegradbeurteilung für Monitor:

Sit: Kein Feature-Level-Monitoring in der Produktion vorhanden. Nur Infrastruktur-Monitoring ist implementiert.
Crawl: Features loggen nur Fehler und Exceptions. Die Analyse von Events erfordert das manuelle Korrelieren von Logs aus mehreren Systemen.
Walk: Features loggen Fehler, Benutzeraktivitäten und andere Events. Daten werden manuell analysiert, um Incidents zu untersuchen und den Geschäftswert von Features zu messen.
Run: Full-Stack-Monitoring ist implementiert. Events können über die gesamte Architektur korreliert werden. Daten werden über systemspezifische Dashboards dargestellt.
Fly: Eine Federated-Monitoring-Plattform bietet zentralen Zugang zu Full-Stack-Einblicken. Daten werden genutzt, um Systemleistung und Geschäftswert zu bewerten.

Den Feedback-Loop schliessen
#

Der wichtigste Aspekt des Monitorings ist, dass es den Feedback-Loop schliesst. Im Hypothesis-Schritt haben wir den Geschäftswert definiert, den wir schaffen wollen. Indem wir diesen Geschäftswert in der Produktion verfolgen, ermöglichen wir dem Business, die richtigen Entscheidungen zu treffen: Sollen wir mehr in dieses Feature investieren oder weniger? Sollen wir dieses Feature für alle Nutzer aktivieren oder es komplett deaktivieren?

Monitoring ist das entscheidende Element, das es uns ermöglicht, das Richtige richtig zu bauen.

Wichtige Erkenntnisse
#

Full-Stack-Telemetrie nutzen. Sowohl Applikationsdaten als auch Geschäftsdaten loggen, um ein vollständiges Bild zu erhalten.
Mit Dashboards visualisieren. Monitoring-Daten für die gesamte Organisation zugänglich und leicht interpretierbar machen.
Federated Monitoring implementieren. Die Sicht auf eine einzelne Applikation reicht nicht aus. Man braucht den Überblick über alle Applikationen und die Infrastruktur.
AIOps einsetzen. Wenn das Datenvolumen die menschliche Kapazität übersteigt, KI nutzen, um zu aggregieren, zu korrelieren und Anomalien zu erkennen.
Geschäftswert messen. Monitoring dreht sich nicht nur um Verfügbarkeit. Es geht darum zu validieren, ob die Geschäftshypothese zutrifft.
Den Feedback-Loop schliessen. Monitoring-Erkenntnisse nutzen, um fundierte Entscheidungen zu treffen, welche Features beibehalten, verbessert oder entfernt werden sollen.

Wo Monitor in die Pipeline passt#

Warum wir überwachen#

Full-Stack-Telemetrie#

Dashboards und visuelle Darstellungen#

Federated Monitoring#

AIOps: Künstliche Intelligenz für den IT-Betrieb#

Was Monitoring liefert#

Die Reifegrade#

Den Feedback-Loop schliessen#

Wichtige Erkenntnisse#