L’Explicabilité: pierre angulaire d’un nouveau Machine Learning

Published in

neoxia

9 min readSep 28, 2021

**Traduire (son modèle), ce n’est pas (le) trahir. C’est (le) renforcer.**

Le Machine Learning peut-il aider n’importe quelle entreprise à devenir plus performante ? Peut-il même aider à résoudre certains problèmes clés de notre siècle ? En tant que Data Scientist, je pense que oui. A condition d’évoluer…

90
% des modèles de machine learning n’atteignent jamais la production.[1] Au-delà des questions de déploiement et de maintenance, ce problème provient pour beaucoup d’une absence de traduction métier des modèles. Voir d’une absence de traduction tout court, qui pose problème: le travail des Data Scientists est peu ou pas compris par les décisionnaires.

*Quel Data Scientist n’a pas vécu l’expérience déconcertante de se voir répondre “et alors ? “ en présentant les excellents indicateurs de performance de classification de son modèle ?*

L’avenir de la Data Science repose sur la possibilité de sortir du paradigme de la boîte noire, ces modèles de ML opaques dont la mécanique interne est inconnue.

Expliquer un modèle permet d’ajouter une valeur cruciale au Machine Learning. Puisque énormément de cas pratiques ont besoin de modèles compréhensibles, voire directement actionnables, l’absence d’explications freine l’utilisation de modèles pourtant performants.

C’est là qu’intervient tout l’enjeu de l’explicabilité de nos modèles.

Par explicabilité, on entend tout le domaine de recherche permettant de montrer pourquoi et comment un modèle est parvenu à sa décision. Cette reconstruction de la décision est essentielle pour compléter les indicateurs classiques de performance.

Que ce soit la justesse, la précision, le rappel, le score F1[2], ces indicateurs si importants pour comprendre la performance d’un modèle ont souvent du mal à être acceptés tels quels par la partie business des entreprises. Qu’il s’agisse d’une traduction en termes de cash, de ROI, d’augmentation du taux de conversion ou d’impact estimé sur un quelconque KPI, l’effort mis par une organisation dans le machine learning doit s’accompagner de plus grands efforts de la part des Data Scientists pour expliquer les résultats obtenus!

Quelles solutions existent actuellement pour permettre aux Data Scientists d’expliquer leurs travaux ? Le fait d’expliquer les modèles les rend-il forcément plus opérationnels ? Comment éviter que cela ne crée à son tour de nouveaux biais ? Deux méthodes seront évoquées, chacune avec ses limites.

La première est celle des réseaux Bayésiens, en particulier une méthode d’entraînement spécifique avec des résultats prometteurs — “NO TEARS”. La seconde concerne les valeurs de SHAPLEY, concept provenant de la théorie des jeux, et adapté au Machine Learning.

Il faudra pourtant souligner les faiblesses dans ces deux méthodes à l’utilisation sur des données réelles et en déduire les limites actuelles à l’explicabilité des modèles.

Inférence Causale et Réseaux Bayésiens

Le Machine Learning appliqué à la prise de décision

La première méthode pour sortir de la boîte noire… c’est de simplement ne pas y rentrer. Plutôt que de chercher à prédire l’avenir, le machine learning peut être utilisé directement afin de chercher à comprendre des données.

C’est le domaine de l’inférence causale qui implique de nombreux autres domaines d’études. Mélange de statistiques, d’économétrie et d’autres sciences, son étude est complexe. Pourtant, ce domaine est prisé en entreprise pour appuyer la prise de décision. Il permet, plutôt que d’expliquer comment un modèle fonctionne, d’extraire directement des données l’importance relative des features.

Pour représenter ces dépendances, il est courant d’employer des graphes tels que celui-ci

Ces Graphes Orientés Acycliques (DAG) illustrent très bien la dépendance des variables entre elles, avec comme contrainte l’interdiction de former des cycles, ce qui implique qu’un phénomène ne peut avoir pour source un phénomène (ou suite de phénomène) qu’il a lui-même engendré. Cela peut paraître logique, mais dans les faits cette règle est assez souvent brisée (prophéties auto-réalisatrices, cercles vicieux ou vertueux, et il faudra ignorer ce biais).

Malheureusement, apprendre un réseau Bayésien est un problème NP-complexe[3], et il faudra par conséquent employer des méthodes de résolution empiriques, fonctionnant sous certaines conditions. Différentes méthodes existent avec des performances variables selon les usages et les études. On citera Lingam[4] (et son implémentation en Python[5]), GraN-DAG[6] et No Tears.

Une méthode pleine de promesses, NO TEARS

Une des méthodes ayant fait couler beaucoup de pixels est la méthode NO TEARS, qui se targue de pouvoir résoudre le problème de l’entraînement des réseaux Bayésiens sans avoir à passer par la phase d’énervements, de frustration et de larmes (NO TEARS) des entraînements de modèles. Vous trouverez dans ce papier[7] les détails des hypothèses ayant permis de simplifier le problème pour créer cet algorithme efficient.

Cette méthode très encourageante, à la complexité cubique en nombre de nœuds, a été implémentée au sein de plusieurs packages python facilement réutilisables. (package réalisé par l’auteur[8], jupyter notebook[9] et même au sein d’une librairie complète pour les réseaux bayésiens de Quantum Black: CausalNex[10]).

Pourtant, elle présente des limitations qui ont été soulignées par plusieurs études, et qu’il nous faudra détailler plus bas.

Ces différentes limites poussent à se tourner vers la deuxième méthode évoquée plus haut: l’explication du modèle à posteriori. Cette idée d’explication à posteriori est séduisante, car elle permettrait de tirer de n’importe quel modèle, même le plus complexe, ce supplément d’information business si important.

Les valeurs de SHAPLEY

Un concept provenant de la théorie des jeux

Pour faire cela, des chercheurs ont eu l’idée de se tourner vers le domaine de la théorie des jeux, et de tirer un parallèle avec le Machine Learning. En effet, la théorie des jeux est une branche des mathématiques particulièrement étudiée depuis les années 30, et une telle analogie permet de tirer profit des travaux déjà réalisés.

Pour décrire les relations entre différents joueurs, Lloyd Shapley a créé un système basé sur quelques principes simples. Ce système permet de mathématiser les liens entre les mouvements réalisés, l’impact sur les autres joueurs et le gain total. Imaginez un jeu coopératif, avec à la clé une somme d’argent. Les valeurs de Shapley cherchent à répartir de manière équitable cette somme selon les actions que les joueurs ont effectuées au cours du jeu. Pour mieux comprendre le concept, de nombreuses ressources sont disponibles (sur youtube[11] ou medium[12] par exemple), boostées par le regain d’intérêt dû à ce nouveau champ d’application.

Pour une Application au Machine Learning

Maintenant, l’analogie qui a été faite, est de considérer chacune des features comme un des joueurs, d’étudier chacune des modifications faites sur ces features, et l’impact sur le résultat en sortie du modèle. Cette méthode de reconstruction peut donc se faire sur un modèle déjà entraîné. Avantage notable: la possibilité de l’utiliser pour n’importe quel type de modèle, même les plus obscures. Enfin en théorie, car elles possèdent également des limitations, la première étant le coût de calcul.

Car les valeurs de Shapley ne se calculent pas en temps polynomial, mais en temps exponentiel pour le nombre de joueurs. Cela implique donc de limiter au maximum l’étude à un certain nombre de features.

Heureusement, ces valeurs ayant été conceptualisées dès les années 50, un nombre important de chercheurs s’est penché sur des moyens d’optimiser le calcul sous certaines conditions. Et il se trouve que ces conditions sont réunies pour des pans entiers de modèles.

SHAP et SAGE

La méthode de SHAP[13] est une de ces méthodes, et permet sous certaines approximations de rendre ces valeurs calculables, avec une performance satisfaisante. C’est notamment le cas pour tous les algorithmes basés sur des arbres: la librairie SHAP TREE EXPLAINER exploite ces méthodes de calcul afin de fournir une approximation extrêmement satisfaisante des valeurs de SHAPLEY. On peut également citer la méthode de Kernel SHAP[13’].

Le point très positif de ces valeurs, c’est leur intelligibilité assez directe pour expliquer une décision particulière du modèle. Mais elles permettent également d’évaluer l’importance des features au niveau global du modèle, ce qui est très intéressant pour la sélection de feature notamment. Moyenner les valeurs de shapley des différentes prédictions permet de construire un proxy très intéressant d’importance de feature, et ainsi de sélectionner les features pertinentes pour le modèle. Ce proxy est alors aussi précis que les algos actuellement utilisés pour la feature selection (gain, permutation).

Cette performance pour l’explication au niveau globale se retrouve dans les travaux de S. Lundberg: SAGE[14], Shapley Additive Global importancE

Les limites actuelles de l’explicabilité

Comme détaillé plus haut, la limite principale dans la mathématisation de la causalité est la complexité des calculs. Cela se retrouve pour les réseaux bayésiens comme pour les valeurs de Shapley.

Cela implique alors de poser des cadres plus restrictifs pour l’utilisation d’optimisation de calcul. Malheureusement, ces cadres sont souvent non vérifiés (et/ou non vérifiables) pour les données réelles. Il faut alors faire attention aux faux prophètes qui émergent dans la littérature scientifique, littérature fortement entachée par le biais du survivant.

Limite de la solution Bayésienne

Comme évoqué plus haut, les réseaux Bayésiens sont loin d’être un problème résolu. Chaque année, de nouvelles études viennent nuancer les résultats prometteurs des années précédentes, poser de nouvelles limites aux méthodes existantes — comme ce papier sur la mauvaise performance de NO TEARS pour les données normalisées[15]. Plus que de critiquer directement NO TEARS, l’auteur évoque ici le problème répandu de sa mauvaise utilisation. Cela est l’occasion de souligner un problème courant: le biais de confirmation. Si l’analyse qui est faite par notre modèle va dans le sens voulu du décisionnaire, aucune remise en question ne sera faite. Si l’analyse ne plait pas, elle sera souvent simplement mise de côté C’est le biais de confirmation[16], qui est généralisable à la plupart des résultats scientifiques. La difficulté de la vérification des conditions d’application rend alors la crédibilisation de la méthode extrêmement complexe.

Limite des valeurs de Shapley

Les valeurs de Shapley, dans leur implémentation SHAP (et SAGE) ont ce même problème. Il faut donc faire très attention aux conditions d’utilisation, et à la manière d’utiliser les insights apportées.

En effet, certains biais peuvent par exemple naître de la corrélation entre les features, la causalité étant alors flou entre celles-ci. Il faudra veiller à cela avant d’utiliser l’analyse pour agir sur une feature afin de changer les résultats d’un modèle.

Ces biais peuvent de plus être exploités pour créer des interprétations volontairement biaisées, et une personne mal intentionnée pourra faire dire ce qu’elle veut aux valeurs. Ce problème, détaillé ici, nécessite de faire confiance au Data Scientist fournissant l’explication.

Espoirs

On pourrait s’attarder plus en détail sur d’autres technologies très intéressantes, notamment pour les réseaux neuronaux, puisque des travaux spécifiques sont entrepris afin d’en extraire de l’information (C’est le cas notamment de la librairie DEEPLIFT[17]).

Ces deux exemples détaillés ne sont donc pas les seuls dans la quête d’explication, et cela montre, comme répété à de nombreuses reprises, que ce domaine d’étude est extrêmement pertinent pour l’avenir du machine learning.

L’explicabilité est donc bien étudiée, et bien nuancée, chaque publication étant soumise à la vérification de pairs. Cela permet de faire avancer le domaine très rapidement, et de mitiger les risques de mauvaise utilisation. Avec un peu de retenu, on peut donc bien extraire de l’information supplémentaire des modèles, et d’ici quelques années, les méthodes auront assez évoluées pour se prévenir des différents pièges de cette technologie naissante.

Ce papier s’apparente à un article d’opinion, avec pour objectif principal de vous convaincre de l’importance de l’explicabilité — et de la relative facilité de sa mise en place dès aujourd’hui. Afin d’approfondir le sujet dans des détails techniques, le lecteur est invité à s’attarder sur les références présentes tout au long de l’article, ainsi qu’à compléter sa lecture par ce livre[18], qui permet de creuser l’explicabilité avec un détail plus exhaustif des méthodes disponibles.

Références

[1] Why 90 percent of all machine learning models never make it into production Rhea Moutafis https://towardsdatascience.com/why-90-percent-of-all-machine-learning-models-never-make-it-into-production-ce7e250d5a4a

[2] ML : Précision, F1-Score, Courbe ROC, que choisir ? Beranger Natanelic https://beranger.medium.com/ml-accuracy-pr%C3%A9cision-f1-score-courbe-roc-que-choisir-5d4940b854d7

[3] Learning Bayesian Networks is NP-Complete David Maxwell Chickering Computer Science Department University of California at Los Angeles https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/lns96.pdf

[4] LiNGAM: Non-Gaussian methods for estimating causal structures http://www.ar.sanken.osaka-u.ac.jp/~sshimizu/papers/Shimizu13BHMK.pdf

Shohei Shimizu∗ ∗The Institute of Scientific and Industrial Research, Osaka University, Mihogaoka 8–1, Ibaraki, Osaka 567–0047, Japan.

[5] LiNGAM — Discovery of non-gaussian linear causal models https://github.com/cdt15/lingam

[6] GRADIENT-BASED NEURAL DAG LEARNING https://arxiv.org/pdf/1906.02226.pdf Sebastien Lachapelle, Philippe Brouillard, Tristan Deleu & Simon Lacoste-Julien

[7] DAGs with NO TEARS: Continuous Optimization for Structure Learning Xun Zheng, Bryon Aragam, Pradeep Ravikumar, and Eric P. Xing https://arxiv.org/pdf/1803.01422.pdf

[8] DAGs with NO TEARS 🚫💧 https://github.com/xunzheng/notears

[9] Notears https://github.com/jmoss20/notears

[10] CausalNex Library https://causalnex.readthedocs.io/en/latest/causalnex.html

[11] GTO-7–03: The Shapley Value https://www.youtube.com/watch?v=qcLZMYPdpH4

[12] Making Sense of Shapley Values Marko Cotra https://towardsdatascience.com/making-sense-of-shapley-values-dc67a8e4c5e8

[13] A Unified Approach to Interpreting Model Predictions Scott M. Lundberg Su-In Lee https://arxiv.org/pdf/1705.07874.pdf

[14] Understanding Global Feature Contributions With Additive Importance Measures Ian C. Covert Scott Lundberg Su-In Lee https://arxiv.org/pdf/2004.00668.pdf

[15] Unsuitability of NOTEARS for Causal Graph Discovery Marcus Kaiser · Maksim Sipos https://arxiv.org/pdf/2104.05441.pdf

[16] Confirmation Bias: A Ubiquitous Phenomenon in Many Guises Raymond S. Nickerson https://pages.ucsd.edu/~mckenzie/nickersonConfirmationBias.pdf

[17] Learning Important Features Through Propagating Activation Differences Avanti Shrikumar Peyton Greenside Anshul Kundaje https://arxiv.org/pdf/1704.02685.pdf

[18] Molnar, Christoph. “Interpretable machine learning. A Guide for Making Black Box Models Explainable”, 2019. https://christophm.github.io/interpretable-ml-book/