Ingénierie du chaos — Chaos Engineering in French — Partie 2 : Où en sommes-nous ?

<<< Aller à la partie 1: (Pour)quoi?

Discipline de l’expérimentation sur un système distribué afin de renforcer la confiance dans la capacité du système à résister à des conditions turbulentes en production.

La discipline d’ingénierie du chaos a été initiée par Netflix et le principe a été défini sur http://principlesofchaos.org/ dans la foulée des Chaos Monkey et de la Simian Army.

Malgré la multitude de conférences à travers le monde, le terme n’a cependant pas encore percé autant :

Evolution de “Chaos Monkey” vs “Chaos Engineering” depuis Juin 2010 sur Google Trends

Pas encore.

De nombreux signes indiquent que cette discipline va exploser dans les prochains mois.

Le concept est entré dans le Technology Radar de ThoughtWorks :

Chaos Engineering au sein du Technology Radar de ThoughtWorks

De nombreuses communautés de pratiques éclosent à travers le monde :

ainsi que le Chaos Community google group.

Au niveau de la France, on voit émerger progressivement le concept dans quelques articles :

La discipline se répand dans de nombreuses sociétés et de plus en plus de personnes y contribuent à travers le monde :

Carte des sociétés, contributeurs, outils et pratiques

Des expériences en production — de type Chaos Monkey— existent dans des sociétés d’hébergement et cloud (Azure, Digital Ocean, Pivotal Cloud Foundry, Twillio, …) comme des sociétés qui s’adressent à des clients finaux (Netflix, LinkedIn, Uber, OUI.sncf, …).

De plus en plus de Gameday sont effectués lors de conférences comme en entreprise, Amazon bien sur, mais également Veolia Water Technologies ou DiUS, qui a d’ailleurs compilé une synthèse de ce qui est nécessaire pour en réaliser un.

OUI.sncf a décliné le concept GameDay en créant les Days-of-chaos à destination de toutes les équipes IT et visant à l’entrainement à la détection, au diagnostic et à la résolution des incidents de production. Les Feature Teams jouent sur leur véritable environnement de preproduction, sur leur application et non sur une application “bidon” Unicorns.Rentals sur Amazon AWS.

La mise en place de Test de Récupération après Sinistre (Disaster Recovery Testing) a toujours existé, mais doit passer de la pratique exceptionnelle à la pratique en continue, comme le programme DiRT chez Google, Storm chez Facebook, DRT chez Dropbox et même dans le secteur bancaire, comme à Fidelity Investments.

Qui sera le prochain ?

Peut-être vous !

Pour cela, vous pourrez vous aider de solution comme ChaosToolkit de ChaosIQ ou la plateforme de Gremlins Inc.

En espérant que vous nous rejoignez bientôt dans ces expérimentations en ingénierie du Chaos .

Pour échanger, rejoignez-nous sur le groupe Meetup Paris Chaos Engineering Community http://meetu.ps/c/3BMlX/xNjMx/f

(version anglaise)

--

--

Christophe Rochefolle
Paris Chaos Engineering Community

CTO SNCF Connect - Experienced IT executive providing technology & organization to improve quality & agility of IT systems