Agiles Incident Management bei idealo: unbürokratisch, selbst organisiert und super schnell

Oliver Effner
idealo Tech Blog
Published in
6 min readMar 24, 2020

Störungen der IT wie in den 80er Jahren zu handhaben, ist zunehmend ineffizient und führt zu Konflikten. Wirksame Kollaboration und die gemeinsame Verantwortung hat idealo mit einem neuen Incident Prozess etabliert. Wie, das teilen in diesem Beitrag Systems Engineer Enrico Heine und Agile Coach Oliver Effner.

Situation

Die Unternehmens-IT ist oft durch eine strikte Trennung von Verantwortlichkeiten geprägt. Man spricht von daher von “Silos” in der Organisation. Bis vor ca. zwei Jahren war das auch bei idealo der Fall. Silos im Bereich “Product & Technology” (P&T) hatten maßgeblichen Einfluss auf die IT-Architektur und die Organisation. Die Verantwortung für Entwicklung, Betrieb und Infrastruktur lag in unterschiedlichen Abteilungen bzw. Teams. Spannungen zwischen den Akteuren waren an der Tagesordnung.

Die Behandlung von Störungen funktionierte nach dem Service Desk Prinzip aus den 80er Jahren: Als zentrale Anlaufstelle bei Störungen stand ein einzelnes IT-Betriebsteam für alle 12 Abteilungen von P&T mit rund 280 Mitarbeitern in der Verantwortung. Das bedeutete: Störungsmeldungen aufnehmen, Probleme identifizieren, schnellstmöglich eine Lösung finden und gleichzeitig die kontinuierliche Kommunikation ins Unternehmen sicherstellen. Nach Feierabend lag die Rufbereitschaft ebenfalls fast ausschließlich bei diesem IT-Betriebsteam. Diese Aufgaben hatte das Team zusätzlich (!) zu seinem normalen Tagesgeschäft.

Für ein schnell wachsendes Internet-Unternehmen, das seinen Usern eine digitale Plattform 24/7 bereitstellt, engagiert weiterentwickelt und von ihrer Verfügbarkeit abhängt, war das mit einer ganzen Reihe von Risiken und Nachteilen verbunden. Dazu gehörten in erster Linie lange Bearbeitungszeiten. Das nötige Wissen und/oder die nötigen Experten mussten erst identifiziert und verfügbar gemacht werden. Hinzu kamen bei Problemen die hohe Belastung durch interne Grabenkämpfe und Schuldzuweisungen statt Kooperation innerhalb der Gesamt-IT. Nicht zuletzt machten die Rahmenbedingungen es oft nur möglich Brände zu löschen, anstatt nachhaltige Lösungen zu implementieren.

Gemeinsame Produktverantwortung

Die Situation im Bereich Product & Technology stand der schnellen Weiterentwicklung der idealo-Produkte und der hohen Verfügbarkeit der Services für die Nutzer im Weg.

Wichtig waren hier die Impulse des Head of Product Operations, Michael Bell. Er war als Wegbereiter für die Einführung der gemeinsamen Produktverantwortung durch die konsequenten Umsetzung der “You build it you run it” — Philosophie in der Organisation ein wichtiger Verbündeter und Ideengeber für den Incident Prozess.

Die Lösung war ein Umbau von Product & Technology mit dem Ziel die Abhängigkeiten zwischen den Abteilungen von idealo aufzulösen und die Silos zwischen den Betriebs- und Entwicklungsteams aufzubrechen. Damit sind alle Teams für ihre Services über deren gesamten Lebenszyklus hinweg selbst verantwortlich. Eine Übergabe an Teams, die die Services für andere betreiben, gibt es nicht mehr.

Entsprechend passte das zentrale Störungsmanagement nicht mehr zur neuen Arbeitsweise bei idealo. Das bisherige Wir-haben-einen-Problem-und-ihr-müßt-es-lösen-Team etablierte stattdessen einen leichtgewichtigen Prozess, der einfach anzuwenden ist, auf der hohen Selbstverantwortung der Mitarbeiter basiert und sich an agilen Praktiken orientiert- unser idealo Incident Prozess.

Der neue Incident Prozess und seine Kernregeln

Als Ablauf stellt sich der neue Prozess wie folgt da.

Überblick Incident Prozess

Entscheidend für das Funktionieren sind drei Regeln:

  1. Die Bearbeitung einer Störung hat immer Priorität vor allen anderen Aufgaben!
  2. Der Incident Manager darf sofort für die Bearbeitung der Störung alle nötigen Mitarbeiter und Ressourcen für die Bearbeitung “ausleihen”.
  3. Die Störung gilt als beseitigt, wenn der Nutzer sie nicht mehr wahrnimmt. Die nachhaltige Lösung wird im Anschluss im Tagesgeschäft implementiert, wenn die Kuh vom Eis ist.

Der Ansatz kritische Störungen direkt selbstorganisiert und ohne zentrale Anlaufstelle zu bearbeiten, macht diesen Prozess sehr schnell. Darüber hinaus bringt er noch weitere Vorteile mit sich:

  • Kein “Wer-ein-Problem-findet-darf-es-behalten” mehr. Störungen werden konsequent sichtbar gemacht und nicht unter den Teppich gekehrt.
  • Die Person, die das Problem hat, ist motiviert, die Störung zu beseitigen und bekommt dazu sofort alle nötigen Befugnisse und Mittel.
  • Alle helfen mit, weil sie sich darauf verlassen können, dass auch ihnen im Problemfall geholfen wird.
  • Die passenden Experten aus der ganzen Organisation finden sich schnell zusammen und arbeiten fokussiert an der Lösung.
  • Nach der Beseitigung der Störung wird eine Ursachenanalyse durchgeführt und Maßnahmen identifiziert, damit ein solches Problem nicht mehr auftreten kann.
  • Es geht nicht darum “Wer”, sondern “Was” das Problem verursacht hat.
  • Die übergreifende Zusammenarbeit vertieft das Verständnis über die Technologie und die Organisation.
  • Es entsteht eine echte Lernkultur.

Nachdem die Akzeptanz innerhalb unserer Abteilung und des CTO sichergestellt worden war, begannen wir damit, die gesamte IT für den neuen Prozess zu gewinnen. Geholfen hat uns, dass Kollegen aus anderen Abteilungen unsere neue Arbeitsweise im Störungsfall live erlebt haben. Sie erkannten, dass Störungen damit allgemein viel schneller beseitigt wurden und interessierten sich für die neue Arbeitsweise. Um den Prozess idealo-weit auszurollen, veranstalteten wir jeden Monat ein offenes Training, in dem der Prozess erklärt und geübt wurde. Die monatlichen Trainings gibt es bis heute, um zum Beispiel neue Mitarbeiter onzuboarden.

Ergebnis und Learnings

Der Incident Prozess funktioniert sehr gut, um Störungen schnell zu beseitigen.

Der Prozess ist heute ein fester und lebendiger Bestandteil von idealo. Er wird gemeinschaftlich gelebt und akzeptiert. Er ist so erfolgreich, dass er nicht mehr nur in der IT Anwendung findet, sondern auch von vielen nicht technischen Abteilungen angewendet wird.

Durch die Etablierung eines abteilungsübergreifenden einheitlichen Vorgehens im Störungsfall ist es uns heute möglich, Störungen schneller zu erkennen, darauf zu reagieren und aus diesen Situationen lernen.

Auf die abteilungsübergreifende Zusammenarbeit und die idealo Fehlerkultur hat der Incident Prozess ebenfalls einen positiven Einfluß.

Das Lernen aus den Incidents funktioniert noch nicht so gut, wie wir es anstreben, obwohl dies ein fester Bestandteil des Prozesses ist. Immer wieder mal fehlt die Zeit (oder wir nehmen sie uns nicht), um die Erkenntnisse für substantielle Verbesserungen zu nutzen.

Einen riesigen Erfolg gab es in Sachen Transparenz. Die Zahl der sichtbar gemachten Incidents ist stark gestiegen. Auch das Feedback der Kollegen bestätigt, dass die Hemmschwelle, einen Incident sichtbar zu machen, drastisch gesunken ist. Damit sind wir offener und ehrlicher im Umgang miteinander geworden, was wiederum der Zusammenarbeit und der Unternehmenskultur insgesamt sehr gut tut.

Obwohl der Prozess bewusst einfach gehalten ist und es nur wenige Regeln, Rollen und Werkzeuge gibt, haben wir festgestellt, dass es vorteilhaft ist, ihn im Rahmen eines Trainings zu erklären. Das Bereitstellen der schriftlichen Dokumentationen hatte kaum einen Effekt.

Ein weiterer Punkt für die hohe Akzeptanz des Incident Prozesses bei idealo ist die fortlaufende Weiterentwicklung und Anpassung des Prozesses auf Basis des Feedbacks unserer Kollegen. Was u.a. dazu geführt hat, dass sich unser technischer Incident Prozess zu einem offenen Framework entwickelt hat, der auf die meisten Störungen angewandt werden kann.

Lesenswert zu dem Thema ist ‘Site Reliability Engineering — How Google Runs Production Systems’.

Nächste Schritte

Vieles ist heute gut, aber natürlich ist nicht alles perfekt. Unsere nächsten Schritte zielen vor allem darauf ab, die Erkenntnisse aus den Incidents besser zu nutzen.

  • Wir kennen heute unser System viel besser als vor zwei Jahren, aber wir nutzen das Wissen nicht in dem Umfang, in dem es möglich wäre. Die Organisation kann aus Incidents eine Menge lernen, aber die Vorfälle inklusive der Learnings werden heute noch nicht systematisch über das Incident Team hinaus geteilt. Hier setzen wir als nächstes an, indem wir ein passendes Format definieren und den Raum dafür schaffen, z.B. im Rahmen von Bereichstreffen, unseren All-Hands oder in Führungsrunden.
  • Zum Setzen von Arbeits- und Entwicklungsschwerpunkten, werden wir einen Überblick über die Schwachstellen des Systems herstellen. Aktuell definieren wir Kennzahlen für die Störungsbeseitigung, die uns helfen, wiederkehrende Störungen besser zu erkennen. Wir versprechen uns davon strukturelle Probleme gezielter und nachhaltiger beseitigen zu können.

Fazit

Das alles hat dazu beigetragen in relativ kurzer Zeit eine hohe Akzeptanz für ein firmenweit einheitliches Vorgehen im Störungsfall zu schaffen.

Die Entwicklung des Incident-Prozesses geht weiter. Wir bleiben gemeinsam mit 900 idealos dran.

--

--

Oliver Effner
idealo Tech Blog

Agile Transformation and Leadership Coach, Simplicist, Providing opportunities for people & organization to develop to their full potential