Ingénierie du Chaos — Comment Commencer? — Partie 2 : Choisir ses expérimentations

Benjamin Gakic
Dec 20, 2017 · 4 min read
Pas à pas nous allons voir comment choisir au mieux parmi les expérimentations

Vous êtes résilient, ou tout du moins vous en êtes convaincu? Vous avez suffisamment confiance en vous? Vos équipes sont au point?
L’expérimentation en production sera pour vous le moyen de prouver que tout ce que vous avez mis en place fonctionne.
Vous de ne devriez pas avoir de problème pour “mettre au défi” vos équipes de subir un Chaos Monkey. Ce sont même peut-être elles qui viendront vous trouver pour mettre leurs efforts à l’épreuve!

Les principales pistes

  • La consommation excessive d’une ressource. Consiste à réduire la disponibilité d’une ressource système (cpu, mémoire, disque, etc…) soit en baissant le quota de la ressource, soit en la consommant de manière artificielle.
  • Les perturbations réseau. Véritable fibre nerveuse de nos SI, que ce se passera-t-il en cas d’engorgement réseau ou de messages tronqués voir incohérents? Les protocoles de base sont l’ajout de latence et la suppression de chemin vers une ressource externe.
  • L’utilisation excessive des bases de données. Saturer les accès, ajouter de la latence sur chaque requête, faire disparaitre la base, “quand la mémoire est inaccessible” c’est un peu l’équivalent de la maladie d’Alzeimer pour vos applications.
  • La panne DNS. On l’oublie souvent mais sans référencement et sans backup du référencement c’est tout le système qui disparait. C’est encore plus problématique quand les services sont exposés à l’externe. Souvenez-vous des impacts des pannes DNS mondiaux sur la disponibilité des grands site.

Un bon point de départ

Avant de vous lancer dans votre choix, je vous conseille très fortement de vous concentrer dans un premier temps sur le Chaos monkey (ou l’expérimentation de la défaillance d’une instance).
En effet, connu et compris de tous, tout en jouissant de sa réputation, il permet à chacun de s’habituer à l’injection de Chaos en production. Il permet entre autre d’ancrer la démarche du Chaos Enginnering dans l’entreprise en servant d’exemple simple.

Le Chaos Monkey est une valeur sûre pour commencer.

Étendre l’adhésion plutôt que la couverture des expérimentations

La résistance d’une chaine est égale à la résistance de son maillon le plus faible.

La démarche globale apportera aussi une cohérence des efforts apportés à la résilience sans compter les “a côté”. Par exemple la mise en place de solutions transverses pourra entrainer un effet de dé-silotage des équipes en les faisant travailler ensemble à résoudre un problème plutôt que de le faire chacune dans leur coin.

Rapidement vous identifierez quelles sont les équipes les plus motrices. Vous pourrez alors leur proposer d’aller plus loin et de choisir elles même leurs futures expérimentations. Ce point est très important car les équipes sont les plus à même de connaître leurs limites et leurs faiblesses. Ce sont elles qui ont fait les impasses ou accumulé de la dette technique : ce sont donc elles qui sont les plus à même de faire leurs choix.

Au final?

Aller à la partie 3: Expliquer et faire partager la démarche >>>

Paris Chaos Engineering Community

Un espace pour partager des articles en Français sur…

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store