Faire vos propres Days of Chaos? Par où commencer?

Benjamin Gakic
Apr 4, 2018 · 6 min read

Kriss et moi même avons été sollicités par l’INSEE pour les accompagner dans la mise en place de leurs propres Days of Chaos. Nous allons en profiter pour suivre la construction de cette démarche et vous proposer un modèle pour les mettre en application dans vos propres organisations.

Rappel : le protocole de l’expérimentation

Les ingénieurs du Chaos du Netflix Technology Blog on proposé un protocole pour la mise en place d’expérimentations du Chaos Engineering. Les Days of Chaos sont un gameday qui a été contruit en respectant ce protocole. Même s’il s’agit d’un jeu, un Days of Chaos est une expérimentation de Chaos Engineering s’adressant à l’organisation ciblée.

Tout naturellement nous avons souhaité repartir de ce protocole :

Définir la question / les objectifs

Cette étape est primordiale car elle va orienter la construction des pannes, le recrutement des participants (joueurs et préparateurs) et même la forme du jeu. On peut parler ici de question ou d’objectif : que souhaite-t-on démontrer? Que souhaite-t-on faire apprendre aux participants? Les sensibiliser sur un point en particulier?

La tentation de vouloir couvrir un grand scope est très tentante. Il faut cependant se rappeler la 7ème étape du protocole ci-dessus qui est d’élargir le scope à chaque nouvelle expérience. Rome ne s’est pas construite en un jour, prenez le temps de faire un bon premier exercice, même court, plutôt que de risquer de n’en faire qu’un seul.

Voici une liste non exhaustive d’axes d’attaque pour vos Days of Chaos :

La seule limite que vous avez est votre imagination et vos besoins. Faites en sorte de coller à l’actualité de votre organisation, c’est un bon tremplin.

Quels ont été les objectifs de nos propres Days of Chaos (DoC)?

DoC 1 : Entrainer les développeurs au suivi de production / Améliorer la détection, diagnostic, résolution des pannes / Renforcer ou créer le lien devops.

DoC 2 : objectif du DoC 1 couplé à une simulation de crise. Ce fut une mauvaise idée car la le premier objectif est sur la base du volontariat et le second non, entrainant une incompréhension pour la partie simulation de crise.

DoC 3 : Tester la réactivité du système sans ses experts. (Format DoC 1 sans les lead dev)

Définir le périmètre

Le périmètre est en grande partie fonction de la question. Il revient en gros à définir les acteurs, les outils et le terrain de jeu.

Public :

Environnement :

La pré-production parait l’environnement idéal pour une première session, cependant une production peut aussi faire l’affaire. Utiliser la production dépendra notamment du coût qu’engendrera une éventuelle indisponibilité de tout ou partie de la production. Si elle est à disposition d’un public interne cela posera bien moins de problème que si vous êtes une entreprise de e-commerce où la moindre indisponibilité peut avoir des impacts catastrophiques sur votre chiffre d’affaire!

Applications :

Les périmètres de nos DoC?

DoC 1 :

Public : Joueurs “Equipes de dev volontaires” / Organisation “direction excellence opérationnelle” / Préparateurs “Ops”

Environnement : Pré-production

Applications : une application de chaque équipe de dev inscrite (qui joue sur sa propre application)

DoC 2 :

Public : Joueurs “Equipes de dev volontaires + tout le monde pour la crise y compris le CODIR” / Organisation “direction excellence opérationnelle” / Préparateurs “Ops”

Environnement : préprodution

Applications : une application de chaque équipe de dev inscrite + un ensemble d’application interdépendantes pour la crise.

DoC 3 :

Public : Joueurs “Equipes de dev volontaires” / Organisation “direction excellence opérationnelle” / Préparateurs “Lead devs”

Environnement : Pré-production

Applications : une application de chaque équipe de dev inscrite

Identifier la métrologie

Fonction du périmètre et en particulier de l’environnement. Si en général les organisations sont bien équipées sur les environnements de prod, les environnements hors prod sont les parents pauvres en particulier du monitoring. Dès lors il convient de vérifier les points suivants :

Quel que soit le format de votre Days of Chaos, quel que soit le public ciblé, il faut toujours insister sur l’importance de coupler le monitoring applicatif qui observe les métriques métier et le monitoring technique qui observe l’état des infrastructures. Une infrastructure qui fonctionne bien n’est pas un gage de bon fonctionnement applicatif. Que se passe-t-il si tous les indicateurs techniques sont bon mais qu’on ne réalise plus aucune vente?…Comment s’en apercevoir sans les indicateurs métier?

La métrologie de nos DoC?

DoC 1 : Utilisation des dashboards applicatifs de chaque équipe + apprentissage de l’utilisation de centreon. Beaucoup d’équipes ne disposaient pas de système de monitoring sur le pré-production. Nous avons donc profité de la préparation du jeu pour monter ces systèmes en hors production.

DoC 2 : Dashboards devs optimisés depuis la précédente session de DoC & centreon. Ouverture d’esprit et apprentissage des dashboards des applications directement autour de la leur.

DoC 3 : Scope identique au DoC 2 mais sans l’expert qui en général et celui qui maitrise le mieux le monitoring voir qui l’a mis en place.

La suite au prochain numéro!

Nous voyons bien que les étapes 2 et 3 découlent de manière très importante de la “Question / Objectif”. C’est le point central dont dépendra l’organisation de vos Days of Chaos. Prenez bien le temps de le/les définir! Corriger le tir après coup…ne sera pas évident et impactera énormément ce que vous aurez déjà accompli.

Nous nous pencherons plus en détail sur l’aspect communication dans un prochain article. Ce point en lui même a été une des clés du succès de nos propres sessions et mérite un article dédié.

Paris Chaos Engineering Community

Un espace pour partager des articles en Français sur…

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store