SmartCollect SC² Dokumentation / Best Practices / Gemeinsame Strategien zur Beobachtbarkeit

Gemeinsame Strategien zur Beobachtbarkeit

Wenn Sie eine Menge zu überwachen haben, wie z. B. eine Serverfarm, brauchen Sie eine Strategie, um zu entscheiden, was wichtig genug ist, um überwacht zu werden. Auf dieser Seite werden mehrere gängige Methoden beschrieben, um zu entscheiden, was überwacht werden soll.

Mit einer logischen Strategie können Sie einheitliche Dashboards erstellen und Ihre Observability-Plattform leichter skalieren.

Richtlinien für die Verwendung

  • Die USE-Methode sagt Ihnen, wie zufrieden Ihre Maschinen sind, die RED-Methode sagt Ihnen, wie zufrieden Ihre Benutzer sind.
  • USE berichtet über die Ursachen von Problemen.
  • RED berichtet über die Benutzererfahrung und meldet eher Symptome von Problemen.
  • Die beste Praxis der Alarmierung ist es, auf Symptome und nicht auf Ursachen zu achten, daher sollte die Alarmierung auf RED-Dashboards erfolgen.

USE-Methode

USE steht für:

  • Utilization (Auslastung) - Prozentuale Zeit, in der die Ressource beschäftigt ist, z. B. Knoten-CPU-Auslastung
  • Saturation (Sättigung) - Menge der Arbeit, die eine Ressource zu erledigen hat, oft Warteschlangenlänge oder Knotenauslastung
  • Errors (Fehler) - Anzahl der Fehlerereignisse

Diese Methode eignet sich am besten für Hardware-Ressourcen in der Infrastruktur, z. B. CPU, Speicher und Netzwerkgeräte.

RED Methode

RED steht für:

  • Rate - Anfragen pro Sekunde
  • Errors (Fehler) - Anzahl der Anfragen, die fehlschlagen
  • Duration (Dauer) - Zeit, die diese Anfragen benötigen, Verteilung der Latenzmessungen

Diese Methode ist am besten auf Dienste anwendbar, insbesondere in einer Microservices-Umgebung. Instrumentieren Sie für jeden Ihrer Dienste den Code, um diese Metriken für jede Komponente offenzulegen. RED-Dashboards sind gut für Alerting und SLAs geeignet. Ein gut gestaltetes RED-Dashboard ist ein Stellvertreter für die Benutzererfahrung.

The Four Golden Signals

Laut dem [Google SRE-Handbuch] (https://landing.google.com/sre/sre-book/chapters/monitoring-distributed-systems/#xref_monitoring_golden-signals) sollten Sie sich auf diese vier Metriken konzentrieren, wenn Sie nur vier Metriken Ihres nutzerorientierten Systems messen können.

Diese Methode ähnelt der RED-Methode, schließt aber die Sättigung mit ein.

  • Latency (Latenz) - Zeit, die benötigt wird, um eine Anfrage zu bedienen
  • Traffic (Verkehr)- Wie hoch die Nachfrage auf Ihrem System ist
  • Errors (Fehler) - Rate der Anfragen, die fehlschlagen
  • Saturation (Sättigung) - Wie “voll” Ihr System ist