Mesurer les discriminations par origine en France grâce aux noms de famille

Cet article est un compte-rendu informel et approximatif de l’étude publiée dans Bulletin of Sociological Methodology par Antoine Mazières et Camille Roth. Les résultats, l’article, les données et le code sont disponible sur ce site.

Origines et noms de famille

Imaginez vous un instant dans un petit village français, en plein moyen-âge. Il y a 5 personnes qui s’appelle Antoine dans le coin et, pour une raison quelconque, vous devez les distinguer les uns des autres, par exemple :

- « Salut ! Je crois que j’ai vu Antoine voler ton scooter hier ? »

- « Quoi !? Quel Antoine ? »

- « Celui avec la maison toute pourrie. »

Voilà ! C’est une origine possible — quoique apocryphe — de mon nom de famille : Mazières. Une des nombreuses versions, en latin vulgaire, du mot Masure, qui signifie vaguement maison toute pourrie. Il en va de même pour de nombreux noms de famille, qui font référence à des lieux (Dupont, celui près du pont), des traits physiques (Petit, le petit, Morel, celui à la peau mat), des occupations (Fournier, le boulanger, Ferrand, le maréchal-ferrant), des surnoms (Martin, le guerrier fertile, Bernard, l’ours fort), etc.

Il a fallu quelques moments marquants — principalement en 1474 et 1539 en France — pour que différentes administrations gèlent ces appellations descriptives, exprimées dans des dialectes locaux, en identifiants héréditaires dissociés de leur sens original, mais porteur d’une origine dans le temps et l’espace. Dans une certaine mesure on observe des mouvements comparables dans d’autres pays européens : Les noms de famille apparaissent nécessaires quelque part entre le XI et XV siècle notamment à cause de regroupement ou de croissance démographique (trop d’Antoine dans le coin) et, vers la fin du moyen-âge, on gèle tout ça pour les besoins administratifs de pouvoirs qui se centralisent. Les choses diffèrent pour d’autres régions du monde, par exemple en Chine ou une légende attribue l’adoption des noms de famille à l’Empereur Fu Xi en 2952 avant notre ère. Aussi, la précision de l’origine exprimée par un nom de famille chinois est souvent bien moindre car une centaine de noms suffit à couvrir 85% de la population tandis que des noms comme Wang (王), Li (李), et Zhang (張) sont portés par 20% de la population. Lister les principales origines des noms de par le monde n’est pas l’objet de ce petit article, l’idée étant que, dans la plupart des cas, les noms de famille ont été gelés à un moment donné, souvent il y a plusieurs siècles, exprimant un compromis entre des relations de pouvoirs entre dialectes, languages, administrations et conflits politico-religieux.

Un coup d’oeil à l’histoire plus récente révèle comment de nombreuses origines ont été effacées des noms de famille, comme les natifs- et afros-américains qui portent souvent des noms d’origine ibérique ou anglo-saxonne. Dans une moindre mesure les origines africaines sont encore présentes dans les noms de famille mais sous le joug de translitérations, si ce n’est de traductions, d’un langage local vers ceux de puissances coloniales comme l’anglais, le français ou le portugais. Aussi, et de manière plus systématique, les enfants reçoivent, dans la plupart des cas, leur nom de leur père, effaçant à chaque génération toute l’information portée par le nom de la mère. Tout cela pour dire que, si les noms sont un outil d’analyse scientifique précieux pour faire resurgir des informations du passé, ses nombreux biais font qu’ils doivent être maniés avec beaucoup de précaution.

Pourquoi les noms ont-ils encore du sens ?

Considérez la chose suivante : Si votre nom a été gelé il y a 500 ans, cela fait 20 générations que quelqu’un le porte ! Cela signifie que du haut de votre arbre généalogique, vous auriez pu recevoir votre nom de plus d’un 1 million d’autres personne (2 puissance 20). Votre nom représente un chemin unique dans cet arbre binaire gigantesque :

Comment est-il possible que parmi autant de possibilités, votre nom représente toujours une sorte d’origine et pas une information aléatoire ? Une possible explication est l’endogamie, c’est à dire la tendance des gens à élever des enfants avec des personnes “proches” d’eux. Cette proximité peut prendre beaucoup de visages : géographique, religieuse, ethnique, économique, social, etc. La hiérarchie entre ces critères varie dans le temps et l’espace, par exemple l’importance de la distance géographique s’est probablement réduite avec le développement et la démocratisation des moyens de transports, ou celle de l’endogamie sociale avec la fin de certains statuts légaux de ségrégation (noblesse, apartheid, etc.). Cela dit, qu’elle accélère ou diminue, l’endogamie est extrêmement forte parmi les humains et l’idée d’une reproduction aléatoire ne peut être qu’un fantasme mathématique.

Si information il y a, donc, notre monde de base de données, d’algorithmes, d’intelligence artificielle doit bien pouvoir la capturer. Tout ce qui n’est pas aléatoire est plein de relief statistique qui permet de potentielles explications et prédictions. À ce titre on trouve de nombreuses études qui utilisent l’information contenue dans les noms de famille, par exemple en médecine, généalogie, démographie et marketing. Notre but ici a été d’utiliser les noms de famille pour mesurer les “sur/sous-représentations” des origines dans plusieurs groupes socio-professionnels en France, c’est à dire pouvoir rendre compte à quel point certaines origines sont plus ou moins présentes dans un milieu professionnel par exemple, par rapport à leur présence dans la population Française.

Construire un programme qui devine l’origine des noms

Comment fait-on, nous les humains, pour avoir l’intuition de l’origine d’un nom ? Prenons par exemple le nom japonais Toriyama. Si vous n’avez jamais vu ce nom, vous pouvez peut-être toutefois deviner son origine japonaise, mais comment ? les sons produits quand on le prononce ? Des motifs dans l’enchaînement des lettres ? Construire un programme, ou un modèle statistique, qui reproduise cette intuition revient à apprendre à partir de nombreux exemples les combinaisons et motifs de lettres qui sont le plus à même de représenter une origine. Pour cela, nous avons pris une base de données contenant 25 millions d’affiliations entre un nom de famille et un lieu. Un algorithme d’apprentissage, ou classifieur, nous a permis de parcourir ces données à la recherche des motifs les plus pertinents et de construire un modèle, ou programme, qui, d’une certaine manière, tourne l’observation en prédiction et devine l’origine d’un nom de famille.

Je fais simple ici et vous invite à consulter la version académique de cette étude. Cela étant, détaillons un point important : Quelles catégories choisir pour classer les origines ? On pourrait jouer aux érudits insatiables et vouloir identifier cette ethnie syrienne qui possède parmi les noms les plus anciens du monde, ou bien cette ethnie polyandrique chinoise, les Nas. Ou alors doit-on opter pour les catégories d’une discussion de comptoir, genre black-blanc-beur-asiat ? Bon, euh, entre les deux mon capitaine ! Et pour éviter de faire n’importe quoi, le mieux est probablement de s’en remettre aux données elle-mêmes en utilisant une méthode statistique appelée “le regroupement hierarchique”. Prenons les catégories qui apparaissent dans la base de données d’apprentissage, des pays, et demandons à un algorithme de mesurer “la distance” entre ces pays, selon les variables retenues pour chaque noms qui y apparaissent. On obtient alors un arbre qui rassemble les pays par “similarité” des noms de famille qui les composent et duquel on peut assez intuitivement extraire 7 groupes d’origines géographiques.

Les pays marqués d’une astérisque ont été interprétés comme mal classifiés et soit déplacés soit supprimés.

Appliquer cet outil pour mesurer de potentielles discriminations dans des groupes socio-professionnels en France

Voilà, nous avons 7 catégories d’origine de noms de famille et un bout de code qui sait mettre un nom de famille dans une des ces cases. Fort de cette boîte à outils, nous pouvons nous tourner vers les applications. Nous avons obtenu les listes des noms des membres de plusieurs groupes socio-professionnels en France, à savoir: Tous les maires de commune en 2014, les députés depuis 1958, les vétérinaires, les chercheurs au CNRS, les comptables, les pharmaciens, les anciens élèves de l’école polytechnique, les avocats parisiens, et les candidats à plusieurs diplômes (BEP, Bac, Bac pro, Brevet, CAP, BTS). Nous avons appliqué notre algorithme à tous les noms de ces listes et ainsi obtenu la part de chacune des origines des noms de familles en leur sein. C’est à dire que pour chaque groupe on a un pourcentage de noms qui est associé à telle ou telle origine.

Pour plusieurs raisons statistiques, ces pourcentages ne sont pas pertinents en tant que tels, mais ils peuvent être comparés à d’autres pourcentages obtenus de manière identique afin de mesurer les différences entre les deux. Idéalement, on souhaiterait pouvoir les comparer aux pourcentages des origines de tous les Français pour pouvoir dire quelque chose comme “Il y a deux fois moins de noms de cette origine parmi les députés que parmi l’ensemble des français”. Mais la liste de tous les Français ou de tous les résidents en France n’est pas vraiment disponible. Alors, à titre d’estimation, nous avons opté, comme référence à la population globale, pour la liste des candidats au brevet de 2008, auquel la plupart des écoliers en 3ème cette année là se sont soumis. Sachant que un très grand nombre des enfants sont scolarisés au moins jusqu’au brevet, il s’agit de la référence la moins biaisée que nous ayons trouvée en la matière.

Pour chaque groupe, donc, nous avons comparé, en faisant une simple division, ou ratio, le pourcentage de noms avec telle origine avec celui dans la population de référence. Cela donne ces résultats :

Plus une origine a un ratio supérieur à 1 (la référence), plus elle est “sur-représentée”, c’est à dire qu’elle est plus présente dans le groupe que dans la population globale. Et inversement, plus il est inférieur à 1, plus elle est “sous-représentée”.

Il faut être assez prudent dans l’interprétation de ces résultats car si une discrimination implique souvent une sous-représentation, l’inverse n’est pas forcément vrai. Il en va de même pour les privilèges et la sur-représentation. Nous avons mis au point cette méthode à titre expérimental et, bien que nous ayons un intérêt prononcé pour l’étude des discriminations, nous avons décidé de nous arrêter là. Pour aller plus loin dans l’interprétation, il faudrait allier des connaissances approfondies des milieux socio-professionnels traités ici et de l’histoire de l’immigration, de la colonisation et de l’esclavage en France.

That’s all folks ! Si vous avez des questions et que la version académique de cette étude n’y répond pas, n’hésitez pas à nous contacter par email ou twitter. Si vous voulez jouer avec notre algorithme, il est disponible ici. Si la quantification des discriminations vous intéresse, je co-organise une journée d’étude sur ce thème à Paris en octobre ou novembre 2020 (inscrivez-vous pour être tenu au courant de la date de report post-covid).

Researcher-gatherer in computational social sciences.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store