Shapash 1.3.2 pour une IA plus Auditable !

La version 1.3.2 de Shapash est désormais disponible et la librairie s’enrichit d’une fonctionnalité attendue : Le Shapash Report, un document html qui contribue à rendre vos modèles auditables !

Yann Golhen
OSS by MAIF
5 min readApr 15, 2021

--

Shapash est une librairie Python libérée par les équipes data MAIF en Janvier 2021 pour rendre les modèles de Machine Learning compréhensibles par le plus grand nombre. Concrètement, Shapash propose différentes fonctionnalités qui permettent :

  • au Data Scientist d’analyser facilement ses modèles, de partager et de valider son approche avec ses commanditaires
  • à l’utilisateur final de comprendre une recommandation/prévision provenant d’un modèle de ML grâce à un résumé adapté des critères qui en sont à l’origine

Retrouvez la présentation générale de Shapash dans ce post.

Depuis son lancement, vous êtes de plus en plus nombreux à l’utiliser et à nous faire des retours extrêmement positifs et nous vous en remercions ! Shapash a déjà fait le tour du monde ! Ceci renforce notre volonté de partager en Open Source nos travaux et de contribuer à une utilisation éthique de la Data et à une IA maitrisée.

Aujourd’hui, la version 1.3.2 est disponible et Shapash permet désormais au Data Scientist de documenter chaque modèle qu’il passe en production. En quelques lignes de code, il fait figurer dans un rapport html toutes les informations qui concernent son modèle (et sa performance associée), les datas qu’il utilise, sa stratégie d’apprentissage, … ce rapport est conçu pour être partagé facilement avec un DPO, un service audit interne, contrôle des risques, conformité ou à toute personne qui souhaite comprendre ses travaux.

Un peu de contexte :

L’intelligence artificielle fait peur : “Quel usage est fait des données personnelles ? A quelle fin est développée IA ? quel est son impact sur l’emploi ? sur nos libertés ? …”

Autant de questions qui restent souvent en suspend et qui laissent place à toutes les spéculations. Il s’agit là d’un sujet d’actualité et nombreux sont les acteurs qui s’en saisissent.

Les pouvoirs publics tout d’abord : En France, l’ACPR a publié en 2020 un document de réflexion sur la gouvernance des algorithmes d’intelligence artificielle. L’Union Européenne a posé un premier cadre avec le RGPD, cadre qui pourrait prochainement être complété par une règlementation sur l’IA qui aborderait notamment les thématiques de la gouvernance, de “l’auditabilité” et du contrôle.

Au-delà du cadre légal, des organisations œuvrent pour une Data Science Responsable et de Confiance. Par exemple : Substra Foundation propose un questionnaire qui permet à chaque entreprise d’évaluer en autonomie sa pratique de la Data Science et d’identifier des axes de progrès.

Enfin, certaines entreprises privées sont actrices d’une IA de confiance au sein de leur organisation. Quelques grands groupes français se sont dotés de dispositifs de gouvernance de l’éthique de l’intelligence artificielle. Sur ce sujet, le collectif Impact IA a publié en fin d’année 2020 un guide qui présente des cas concrets de mise en place d’une gouvernance pour une IA de confiance. Enfin, d’autres acteurs ont mis en place des guides de bonnes pratiques et les partagent.

A la MAIF nous sommes très investis dans le développement d’une IA de confiance au service de l’humain. Shapash a été développée dans cette intention et rend compréhensible par tous les recommandations formulées par des modèles de Machine Learning réputés “Black Box”. Avec cette nouvelle version, les équipes data MAIF ont souhaité aller plus loin en contribuant à ce sujet majeur de “l’auditabilité” des modèles, en facilitant la documentation systématique de ces derniers à l’aide de templates.

Le Shapash Report :

Le Shapash Report est un document html “Standalone” généré à l’aide d’une ligne de code par le Data Scientist au moment où il déploie son modèle en production. Celui-ci lui permet de documenter son projet et de figer dans une « photographie à l’instant T » toutes les informations relatives à l’entrainement de son modèle et aux étapes en amont (dataprep, cadrage,…).

Ce rapport aide à une meilleure gouvernance de l’IA en documentant finement chaque algorithme déployé. Il permet à chacun au sein de l’organisation de comprendre pourquoi, comment, avec quelles données et à quelle fin a été construit son modèle.

Nous espérons qu’il sera une aide précieuse pour l’audit des modèles et pour une meilleure gouvernance de l’IA !

Un outil ouvert : Chaque organisation peut adapter le contenu de son Shapash Report.

En attente d’une règlementation qui précise le contenu type pour cette documentation, il était important pour nous de proposer une solution ouverte. Ainsi, chaque entreprise peut s’approprier l’outil et définir son propre “standard” que chaque data scientist mettra en oeuvre dans ses projets.

Une proposition de Template

Shapash 1.3.2 propose un template que chacun peut adapter. Vous retrouverez sur le repo Github du projet un tutoriel vous indiquant comment mettre en oeuvre ce template et comment le modifier à votre guise. Dans l’exemple que nous proposons figurent les informations suivantes :

  • Informations générales : L’intitulé du projet, sa description, sa finalité, qui a travaillé au développement du modèle, à quelle date…
  • Dataprep : D’où proviennent les données, où puis-je trouver les programmes de data preparation,…
  • Features Engineering et stratégie d’entrainement : Quelle a été la stratégie mise en oeuvre, quels sont les programmes associés à cette partie.
  • Informations relatives au modèle : Quel type de modèle ? Quels sont les hyper-paramètres retenus ?
  • Analyse des datasets d’entrainement et test : Descriptions de toutes les features introduites dans le modèle et analyse des corrélations.
  • Explicabilité globale du modèle : Quelles sont les Top features du modèle ? Quelle influence a chacune d’elle sur la recommandation/prévision ?
  • La performance du modèle : Restitution des métriques associées au modèle, distribution de la prévision sur le dataset de test.

Le contenu de ce rapport est très riche. Aussi, pour faciliter la navigation Shapash Report propose un volet “Table des matières” ainsi que différents boutons menus.

Le Shapash Report bénéficie de toutes les fonctionnalités de wording des data de Shapash : Les libellés fonctionnels associés à chaque feature sont restitués dans ce document html pour que le contenu partagé soit compréhensible par tous et notamment par ceux qui n’ont pas pris part à la construction du modèle.

💡Partagez vos propres idées !

N’hésitez pas à vous rendre sur le GitHub de Shapash : vous y trouverez une documentation exhaustive sur cette nouvelle fonctionnalité. Vous pourrez aussi y laisser vos messages (onglet discussions) et contribuer à la solution en partageant vos propres templates ou toute autre idée. Et n’hésitez pas à mettre une étoile sur GitHub si vous aimez le projet !

Puisse Shapash contribuer au développement d’une IA de confiance !

--

--