Schließen

Atlassian-Handbuch für Vorfälle

Überblick

Von den für technische Services zuständigen Teams wird heute erwartet, dass sie Verfügbarkeit rund um die Uhr gewährleisten.

Wenn ein Problem auftritt, sei es ein Ausfall oder ein Funktionsfehler, müssen die Teammitglieder sofort reagieren und den Service wiederherstellen. Dieser als Vorfallsmanagement bezeichnete Prozess ist für Unternehmen aller Größen eine kontinuierliche, komplexe Herausforderung.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Reaktion auf einen Vorfall

Prozess zur Reaktion auf einen erkannten Vorfall und weitere Schritte

Nachbereitung von Vorfällen

Nachbereitung ohne Schuldzuweisungen, Ermittlung der grundlegenden Ursachen und Planung der Problembehebungsaufgaben

Atlassian-Handbuch für Vorfälle – Überblick

An wen richtet sich dieser Leitfaden?

Wenn du Teil eines Entwickler- oder Operations-Teams bist, das sich um Internetservices für Kunden kümmert, die Verfügbarkeit rund um die Uhr benötigen, ist dieses Handbuch richtig für dich.

Was ist ein Vorfall?

Wir definieren einen Vorfall als ein Ereignis, das zu einer Unterbrechung im Service oder zu einer Abnahme der Servicequalität führt und eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Verfahren nutzen, sprechen in diesem Fall möglicherweise von einem "größeren Vorfall".

Ein Vorfall gilt als erledigt, wenn der betroffene Service wieder normal funktioniert. Es geht also nur um die zur vollständigen Wiederherstellung der Funktionalität erforderlichen Aufgaben. 

Die Nachbereitung von Vorfällen erfolgt jeweils nach dem Vorfall. Das Team ermittelt die grundlegende Ursache des Vorfalls und weist Aufgaben zu, die ein erneutes Auftreten verhindern sollen.

Unsere Werte für Vorfälle

Da ein Prozess für das Vorfallsmanagement nicht alle möglichen Situationen abdecken kann, geben wir unseren Teams allgemeine Ratschläge in Form von Werten an die Hand. Ähnlich wie die Unternehmenswerte von Atlassian dienen unsere Werte für Vorfälle folgenden Zwecken:

  • Sie liefern Anhaltspunkte für die eigenständige Entscheidungsfindung der Teams bei Vorfällen und bei der Nachbereitung. 

  • Sie schaffen für alle Teams eine konsistente Kultur zum Identifizieren von Vorfällen, zum Umgang damit und zum Erkenntnisgewinn aus Vorfällen.

  • Sie geben den Teams einheitliche Hinweise auf die Haltung, die sie bei der Identifizierung, Lösung und rückwirkenden Betrachtung von Vorfällen einnehmen sollten.

Phase Wert für Vorfälle Verwandter Unternehmenswert von Atlassian Begründung
1. Erkennung Atlassian weiß Bescheid, bevor Kunden den Vorfall bemerken.

Mit Herz und Ausgewogenheit bauen

Bei einem ausgewogenen Service sind ausreichend Überwachungs- und Benachrichtigungsfunktionen implementiert, um Vorfälle zu erkennen, bevor unsere Kunden sie bemerken. 

Im Optimalfall werden wir im Rahmen der Überwachung schon benachrichtigt, bevor ein Problem zu einem Vorfall führt.

2. Reaktion Eskalation ist alles. 

Teamgeist ist Trumpf

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Niemand kann alles wissen – zögere daher nicht, einen Vorfall zu eskalieren.

3. Wiederherstellung Probleme passieren nun mal, bringe sie schnell in Ordnung. Versuche nicht, den Kunden hinters Licht zu führen.

Unseren Kunden ist es egal, weshalb ein Service ausgefallen ist. Sie erwarten nur, dass wir ihn so schnell wie möglich wiederherstellen.

Bemühe dich daher immer, einen Vorfall schnell zu erledigen, um die Beeinträchtigung für unsere Kunden zu minimieren. 

4. Erkenntnisgewinn Keine Schuldzuweisungen! Open Company, No Bullshit Vorfälle sind beim Betreiben von Services nicht zu vermeiden. Wir verbessern unsere Services, indem wir unsere Teams zur Verantwortung ziehen, dabei aber niemandem die Schuld geben.
5. Optimierung Lasse nicht zu, dass derselbe Vorfall zweimal passiert. Sei du selbst die Veränderung, die du dir wünschst

Ermittle die grundlegende Ursache des Vorfalls und kläre, welche Änderungen nötig sind, um Vorfälle dieser Art künftig zu verhindern.

Verpflichte dich auf Fristen zur Umsetzung bestimmter Änderungen.

 

Erforderliche Tools

Im hier beschriebenen Prozess zum Vorfallsmanagement werden verschiedene Atlassian-spezifische Tools verwendet, für die bei Bedarf andere Tools eingesetzt werden können:

  • Verfolgung von Vorfällen: Jeder Vorfall wird in Jira als Issue verfolgt. Außerdem wird jeweils ein Issue zur Nachbereitung erstellt, um die Durchführung der Nachbereitung zu verfolgen (vor der Einführung von Jira Ops nutzte Atlassian hierfür eine stark angepasste Version von Jira Software).

  • Chatraum: Ein Kanal zur Kommunikation in Echtzeit ist für die gemeinsame Diagnose und Lösung eines Vorfalls im Team unverzichtbar.

  • Videochat: Bei vielen Vorfällen erleichtert ein Team-Videochat mit einer Lösung wie BlueJeans die Diskussion und Einigung über die beste Herangehensweise.

  • Benachrichtigungssystem: Ein Tool wie OpsGenie dient zur Verwaltung von wechselnden Zuständigkeiten und Eskalationen.

  • Dokumentationstool: Wir nutzen Confluence für die Erstellung von Dokumenten zum Vorfallsstatus und zum Teilen der Nachbereitungsergebnisse in Blog-Form.

  • Statuspage: Per Statuspage teilen wir den Status mit internen Verantwortlichen und mit Kunden, damit alle auf dem Laufenden bleiben.

Verfolgung von Vorfällen

Jeder Vorfall wird als Jira-Issue verfolgt. Außerdem wird jeweils ein Issue zur Nachbereitung erstellt, um die Durchführung der Nachbereitung zu verfolgen. Der im vorliegenden Handbuch beschriebene Prozess bezieht sich auf unsere stark angepasste Version von Jira Software, die zur Entwicklung von Jira Ops geführt hat. Die im Prozess verwendeten Funktionen entsprechen allerdings nicht exakt den heute in Jira Ops verfügbaren Funktionen.

In der Regel werden Vorfalls-Issues von einem Support Engineer als Reaktion auf ein Kundenticket erstellt oder von einem Entwickler, der eine Überwachungsbenachrichtigung als Vorfall erkennt. Wir raten unseren Mitarbeitern dringend, ein Issue zu erstellen, sobald sie etwas beunruhigt, statt mit der Eskalation zu warten.

In Jira verfolgen wir Vorfälle mit einem einfachen Workflow bis zur Lösungsphase. Dort halten wir auch alle durchgeführten wichtigen Aktionen zur Reaktion auf den Vorfall fest.

Vorfallsmanager (Incident Manager)

Bei jedem Vorfall gibt es einen Vorfallsmanager (Incident Manager, IM), der die Verantwortung und Zuständigkeit für den Vorfall innehat. Wer diese Aufgabe übernimmt, geht aus der Angabe unter "zugewiesen zu" im Vorfalls-Issue hervor. Der IM darf alle erdenklichen Maßnahmen zur Erledigung des Vorfalls ergreifen. Er kann beispielsweise andere Mitarbeiter benachrichtigen und dafür sorgen, dass sich alle an einem Vorfall beteiligten Personen ganz auf die schnellstmögliche Wiederherstellung des Service konzentrieren. 

Der IM ist im Zusammenhang mit dem Vorfall keine konkrete Person, sondern eine Rolle. Das Festlegen von Rollen bei einem Vorfall hat den Vorteil, dass die beteiligten Personen austauschbar werden. Alle Mitarbeiter, die mit einer bestimmten Rolle vertraut sind, können diese für jeden beliebigen Vorfall übernehmen.

Hast du Ideen oder Vorschläge zu diesem Leitfaden?

Hervorragend! Du kannst dein Feedback an incident-handbook@atlassian.com senden und uns deine Ideen mitteilen.

Reaktion auf einen Vorfall

Prozess zur Reaktion auf einen erkannten Vorfall und weitere Schritte

Nachbereitung von Vorfällen

Nachbereitung ohne Schuldzuweisungen, Ermittlung der grundlegenden Ursachen und Planung der Problembehebungsaufgaben

Suchst du nach einem Tool für einen Prozess zum Vorfallsmanagement?