Pour une lecture repensée des concertations grâce au traitement automatique des langues

L’art de la synthèse — Partie 1

Accompagnatrice d’institutions pendant leurs processus de concertation, Open Source Politics doit développer une expertise sur toutes les étapes d’une telle démarche. Nous avons, ces derniers mois, beaucoup travaillé sur l’élaboration des synthèses que l’on nous demande dans un but de mise en forme et d’exploitation des diverses contributions aux plateformes numériques que nous construisons. Les volumes de contributions sont en effet particulièrement importants et il est relativement difficile de parvenir à toutes les exploiter correctement sans perdre de vue la cohérence de l’ensemble. Nous avons développé des compétences spécifiques, tournées vers le traitement automatique des langues (TAL) afin de fournir des synthèses plus précises tout en prenant en compte la structure générale des contributions. Open Source Politics a notamment pu tester ces outils lors de la mission réalisée pour l’Assemblée nationale en octobre 2017—nous y reviendrons.

Ces deux articles sont l’occasion pour nous de retracer notre réflexion sur le sujet, expliquer notre intérêt pour le traitement automatique du langage et exposer nos résultats. Dans ce premier article, nous retracerons rapidement l’histoire du TAL avant de nous concentrer sur l’intérêt de cet outil pour Open Source Politics. Le deuxième article sera consacré à une étude de cas qui nous permettra de montrer, en pratique, l’apport du TAL ; nous reviendrons également sur l’utilisation qu’Open Source Politics en a fait par le passé ainsi que l’évolution de notre réflexion jusqu’à aujourd’hui.


Prémices.

C’est l’analyse des données, basée sur la statistique, qui constitue l’ancêtre de la textométrie (la mesure du texte). Il est alors relativement aisé de tracer les premières utilisations de la statistiques et des probabilités à des fins d’analyse du réel. Les historiens soulignent ainsi la récurrence des observations statistiques opérées entre autres par les scribes de l’Egypte antique. Pour Jean-Paul Benzécri, ce sont les nécessités de l’administration des grands empires, tant égyptien que chinois ou mésopotamien, qui impulsent l’usage des statistiques.

Ce n’est par contre qu’à partir des 15 et 16èmes siècle que la mathématisation de la discipline est entreprise, par l’intermédiaire des découvertes de Galilée, Pascal ou Bernoulli notamment. On observe après ces premières avancées un développement croissant de la discipline, malgré une interruption pendant le 19ème siècle. On quitte ensuite la théorie générale de l’analyse des données (via les probabilités et la statistique) pour se concentrer sur l’analyse des textes, qui constituent des données au même titre que les relevés de la hauteur du Nil des scribes égyptiens.


Origines.

Descendant (consciemment ou inconsciemment) en droite ligne de la philosophie du langage de Wittgenstein et son obsession à identifier les règles de l’emploi des mots, le traitement automatique des langues est né selon Catherine Fuchs et Benoît Habert au croisement de deux préoccupations venant de domaines assez éloignés.

Le domaine académique s’intéressait ainsi dans la deuxième moitié du 20ème siècle à la formalisation mathématique du langage car cela permettait de le décrire “à la manière d’une machine”.

Au même moment, les nécessités de la Guerre Froide ont favorisé l’intérêt du secteur de la défense pour la traduction automatique. Ces deux enjeux ont attiré les financements et la recherche dans le domaine du traitement automatique des langues s’est alors développée. Deux types d’applications se sont distingués. Le premier s’attache à l’écrit avec notamment :

  • la traduction automatique,
  • la génération automatique de texte (des articles ont par exemple été générés automatiquement par Syllabs pour Le Monde lors des élections départementales de 2015),
  • les correcteurs orthographique et grammatical,
  • les moteurs de recherche,
  • le système de messagerie : le filtrage des mails (spam/pas spam),
  • la classification,
  • l’extraction d’information,
  • les agents conversationnels (chatbots),
  • la reconnaissance optique de caractères (OCR).

Le deuxième type d’application s’est concentré sur l’oral, la vidéo et à d’autres formats multimodaux, notamment à travers la gestion d’appels, l’enseignement par ordinateur, le contrôle de système par voix, la synthèse de la parole.


Logométrie.

La discipline que représente le traitement automatique des langues s’est essentiellement développée en France à partir des années 1970, dans la lignée des recherches pionnières de Pierre Guiraud et de Charles Muller en statistique lexicale. C’est durant cette période que de nombreuses façons de représenter la donnée textuelle émergent.

Parmi celles-ci, la textométrie (mesure du texte) fait partie d’une discipline qu’on appelle l’analyse de données textuelles (ADT). La lexicométrie (mesure du lexique) en fait également partie et la logométrie s’ajoute à ces deux disciplines, complétant ainsi l’ADT. S’attachant d’abord à évaluer la richesse du vocabulaire d’un texte, la textométrie s’est ensuite spécialisée dans différentes procédures telles que le calcul des correspondances, la classification et d’autres procédures.

Quant à la logométrie (logos = discours ; métron = mesure). Cette discipline se développe au 21ème siècle dans le cadre des humanités numériques. Elle se présente comme un prolongement naturel de la lexicométrie (mesure du lexique) et de la textométrie (mesure du texte). Seulement, c’est le discours ou logos (c’est-à-dire le discours politique, littéraire, médiatique, scientifique…) dans ses dimensions linguistiques et sociales qui est son objet. Il s’agit d’une méthode d’analyse et d’interprétation des discours utilisée dans les Sciences Humaines et Sociales qui est assistée par ordinateur, elle combine ainsi lecture qualitative et lecture quantitative des corpus numériques. Elle articule également lecture globale (le discours entier) et lecture locale (les unités du discours) pour construire l’interprétation.

Rappelons ici deux définitions du concept de “texte” : d’abord, “un texte est une série orale ou écrite de mots perçus comme constituant un ensemble cohérent, porteur de sens et utilisant les structures propres à une langue (conjugaisons, construction et association des phrases…).” Ensuite, “un texte peut représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs textes (mais au minimum un).” Nous pouvons, à partir de ces deux définitions complémentaires, éclaircir le lien entretenu entre la notion de texte et celle du discours dans le domaine de la logométrie. En effet, si le concept de discours est entendu comme un type de texte d’ordre personnel selon Emile Benveniste, le concept de texte est quant à lui perçu comme une série orale ou écrite de mots cohérents entre eux. Ce dernier est donc à appréhender dans sa forme générique.

Pour résumer les notions auxquelles la démarche de traitement de la donnée textuelle répond, voici les différents éléments qui la constituent :

  1. Les propositions sont des séries écrites de mots.
  2. Dans un corpus textuel sont rassemblés un ou plusieurs textes (de type “discours”) correspondant aux propositions de la consultation. Il s’agit de l’unité établie et constituée manuellement, sur laquelle nous travaillons et qui servira au traitement avec le logiciel IRaMuTeQ.
  3. “Le texte” est un hyperonyme ; il regroupe plusieurs mots plus spécifiques : discours, entretien, article, livre, ou autres.
  4. Une consultation rassemble plusieurs types de discours : “argumentatif”, “explicatif”, “descriptif” par exemple.
  5. Le discours engage systématiquement celui qui le prononce, et est donc envisagé comme étant “personnel”.

De fait, la logométrie qui s’applique au discours est donc naturellement adaptée aux jeux de données des différentes consultations réalisées avec les plateformes déployées par Open Source Politics.


Un outil au service de l’analyste.

Les résultats de l’analyse réalisée avec le logiciel IRaMuTeQ, un logiciel libre développé par Pierre Ratinaud au sein du Laboratoire d’Etudes et de Recherches Appliquées en Sciences Sociales (LERASS), ouvrent la voie à différentes interprétations. La statistique textuelle permet à l’analyste de s’appuyer sur des critères quantitatifs et non sur une interprétation subjective. Le logiciel nous permet de prendre en compte l’ensemble des dimensions du corpus, permettant à la fois une exhaustivité et une spécificité de l’analyse. Cette démarche nous invite en effet à témoigner à la fois de la contribution individuelle et de la contribution collective.

L’enjeu est de révéler l’articulation des propositions, de révéler comment les propositions interagissent entre elles. Cette articulation se manifeste par une représentation spatiale des contributions, par des graphiques qui permettent d’interpréter plus facilement les résultats de la consultation. Vous trouverez ci-dessous des exemples de visualisation graphique des données intégrés à notre travail de synthèse effectué pour l’Assemblée nationale.

Analyse de similitudes sans représentation des thématiques
Analyse des similitudes

Les résultats produits sont non seulement plus lisibles et compréhensibles, ils correspondent également à un point de vue que nous n’aurions pu adopter sans l’outil.

Par ailleurs, à partir du moment où le fonctionnement du logiciel est expliqué, nous pouvons également garantir que son utilisation n’est pas une simple exploration mathématique déconnectée de la réalité. En effet, elle s’attache à une dynamique autonome qui prend en compte le contexte de la consultation et fait appel à l’attention de l’analyste. Notre synthèse enrichie par ce logiciel ne peut se passer d’une action externe, puisque le logiciel ne fonctionne pas sans l’implication de l’analyste qui devra paramétrer le logiciel en fonction de ses besoins et de son postulat de départ.

Si le traitement ne tient pas compte du contexte en premier lieu, l’analyste se doit de réintroduire cette notion de façon systématique. Par ailleurs, nous ne pouvons pas isoler l’outil d’une problématisation antérieure. L’utilisation d’IRaMuTeQ ne peut être envisagée par et pour elle-même, détachée de toute réflexion en amont. Les sorties produites, dont vous pouvez avoir un aperçu grâce aux exemples ci-contre, seront soumises à l’interprétation humaine en regard de l’hypothèse de départ.


Conclusion.

Open Source Politics allie donc à la compréhension de ces algorithmes une interprétation lucide des résultats. Autrement dit, la transparence des algorithmes d’IRaMuTeQ (favorisée par les différents manuels disponibles en ligne ainsi que le libre accès au code) nous permet de garantir l’autonomie d’Open Source Politics dans l’interprétation des résultats et dans la fiabilité des résultats.