Pourquoi les algorithmes sont-ils biaisés et comment y remédier ?

4 min readMar 31, 2019

Le nombre de scandales attestant le sexisme et/ou le racisme des algorithmes ne manque pas. De l’algorithme d’Amazon qui refusait systématiquement d’embaucher des femmes, à l’algorithme de Microsoft qui s’est mis à tenir des propos racistes et négationnistes, en passant par les traductions sexistes des métiers de Google Translate, tout porte à croire que les algorithmes sont dangereux pour la société. Mais d’où proviennent ces discriminations informatiques ? Quelles mesures peuvent-être mises en place pour les éviter ? La question n’est plus temps de démontrer si les algorithmes peuvent être discriminants, car cette affirmation a été prouvée par bon nombres de recherches, mais bien d’expliquer les raisons de ces biais afin de réfléchir à des solutions concrètes et applicables dès aujourd’hui.

La raison la plus évidente pouvant expliquer les biais algorithmiques, et pourtant bien souvent oubliée, est la présence de l’humain derrière tout développement. Cette présence est laissée de côté due à la complexité de vulgarisation de leur travail, mais nous tenterons néanmoins cet exercice en prenant l’exemple de la détection de maladie. L’algorithme doit classifier les patients comme étant malades ou non, et ainsi faire un arbitrage entre le nombre de faux positif et de faux négatif. Pour les novices, le nombre de faux positifs correspond aux patients désignés comme malades par l’algorithme mais qui ne le sont pas. A contrario, les faux négatifs correspondent aux patients désignés comme non-malades par l’algorithme alors qu’en réalité, ils le sont. Evidemment, les médecins préfèrent avoir un taux élevé de faux malades au risque de passer à côté de vrais malade. Cela étant, un.e développeur.e ne réfléchit pas de cette manière. Il est préférable pour ces derniers d’avoir un nombre élevé de faux négatifs car, dans une vision long-termite, l’algorithme fera de moins en moins d’erreurs grâce à l’accumulation de nouvelles données. Le développement d’un algorithme suppose parfois de choisir entre justice sociale et performance informatique.

La seconde raison des biais algorithmiques, tout aussi évidente et pourtant toujours autant mise de côté, est la qualité des données à partir desquelles l’algorithme réfléchit, calcule, et propose. L’algorithme d’Amazon, hautement médiatisé en 2015 pour avoir refusé les candidatures de femmes, s’est basé sur un historique de données déjà inégalitaire : l’entreprise a recruté des profils largement masculins sur ces dix dernières années. Ainsi, si l’algorithme effectue ses calculs sur une base de données historiquement sexistes alors les résultats prospectifs le seront également. Pour faire simple et reprendre une expression bien connue dans l’univers informatique : « Garbage in, garbage out ».

Comment alors contrôler ces dérives ? Stéphan Clémençon et David Bounie, respectivement chercheurs en machine learning et en économie à Télécom Paristech, viennent de publier un rapport « Algorithmes : biais, discriminations et équité » dans lequel ils énumèrent des solutions pouvant lutter contre les biais des algorithmes.

Pour les chercheurs, la solution la plus pertinente pour s’assurer de l’équité des algorithmes est de les contraindre. Stéphan Clémençon l’illustre parfaitement en faisant une comparaison avec les sondages : « En sondage, on s’assure de la représentativité des données au moyen d’un échantillonnage contrôlé, fondé sur la répartition connue de la population générale ». Si la représentativité des données d’apprentissage de l’algorithme d’Amazon avait été contrôlée, le scandale n’aurait pas eu lieu. Les statistiques peuvent combler l’absence d’une catégorie de la population dans une base de données, afin de ne pas reproduire cette discrimination. Stéphan Clémençon explique qu’ « il s’agit d’expliquer pourquoi un individu est présent dans la base ou pas, en fonction de caractéristiques additionnelles ». La prise en compte de ces caractéristiques additionnelles, en tant que contraintes dans le programme d’apprentissage, permettrait de corriger les biais des bases de données.

Est-ce aussi simple ? Malheureusement non, car la notion d’équité est aussi multiple que contradictoire. Citons l’exemple de l’équité individuelle versus l’équité de groupe. Si l’on se tient à l’équité individuelle, chaque personne devrait avoir la même chance que les autres de réussir. Mais ce critère est incompatible avec l’équité de groupe dans lequel les individus d’un même groupe, par exemple les femmes, seraient traitées de manière similaire. En somme, on ne peut pas vouloir donner une chance identique à tout le monde, et en même temps vouloir une équité sur le genre.

Les raisons pouvant biaiser des algorithmes sont multiples, et les conséquences dans notre société véridiques. La seule certitude que nous avons est la nécessité de connaître les données sur lesquelles les algorithmes sont basés ainsi que les calculs mis en place, afin de comprendre les résultats. Il est nécessaire que nous puissions, médecins ou simple consommateurs de contenus, comprendre et interpréter le résultat d’un algorithme. Pour ce faire, il faut mettre en place une instance pouvant auditer les algorithmes, sans nuir au secret commercial et/ou à la propriété des données personnelles, afin d’en soulever les risques. Il ne s’agit plus de performance, mais de responsabilité civile.

Pourquoi les algorithmes sont-ils biaisés et comment y remédier ?

Written by Imane Assaad