Les innovations méthodologiques utilisées par OSP pour l’analyse des discours

L’art de la synthèse — Partie 2

Le traitement automatique des langues (TAL) est un domaine situé au croisement de trois disciplines qui sont la linguistique, l’informatique et l’intelligence artificielle. Ce domaine est déjà en développement chez Open Source Politics. Nous aurons l’occasion dans ce deuxième article dédié à la vision de la synthèse que nous avons adoptée de détailler les raisons de notre choix logiciel, d’expliquer plus précisément son action, de développer une petite étude de cas et enfin de revenir sur notre mission avec l’Assemblée nationale afin de clarifier encore l’intérêt de ce type d’outil pour notre activité.


Un choix logiciel traduisant une orientation stratégique.

L’approche que nous adoptons à travers la logométrie est corrélée au TAL. Cette procédure d’analyse de données textuelles à travers les statistiques intervient via IRaMuTeQ, un logiciel libre développé par Pierre Ratinaud au sein du Laboratoire d’Etudes et de Recherches Appliquées en Sciences Sociales (LERASS), dans le cadre de la rédaction de nos synthèses.

À l’heure où les outils de text-mining se multiplient et se spécialisent dans des tâches de plus en plus spécifiques, il en demeure quelques-uns qui offrent la possibilité d’embrasser une grande diversité de traitements. Beaucoup d’outils sont le plus souvent payants et ne permettent pas toujours d’accéder à un panel de procédures satisfaisant, c’est pourquoi Open Source Politics utilise le logiciel open source IRaMuTeQ. Il permet de réaliser de nombreuses procédures de logométrie sur un corpus très large. Les avantages sont nombreux et profitent à l’analyste mais aussi et surtout au citoyen. Un tel outil lui permet par exemple de mieux visualiser la donnée qui lui est présentée et lui confère ainsi une meilleure appropriation des thématiques et des propositions présentes au sein d’une consultation.

Rappelons par ailleurs que les méthodes de la statistique textuelle permettent plus généralement de traiter les textes tels qu’ils ont été écrits ou recueillis sans intervenir pour les modifier. Ainsi, aucune intervention subjective n’interfère au cours de la procédure, garantissant ainsi la richesse lexicale du corpus. Nous traitons des verbatim (propositions) sous leur forme brute que l’on tentera ensuite de saisir et d’analyser à travers le sens des mots et les formes des phrases qui les structurent. En outre, cette discipline auquel le logiciel répond permet d’aborder un corpus sous un angle “objectif”. Ainsi, pour Bénédicte Garnier et France Guérin-Pace, “la statistique textuelle permet d’objectiver et de synthétiser ces informations qualitatives pour faire émerger une représentation commune et diverse à la fois”.

L’objectivité vient des calculs produits par le logiciel. Ce dernier exécute rigoureusement, toujours de la même manière, le traitement du corpus à travers les différentes procédures. Toutefois, les résultats produits ne se suffisent pas à eux-mêmes et nécessitent une interprétation par l’analyste. Ainsi, nous parlons bien d’un traitement objectif via les algorithmes du logiciel. L’analyse finale intègre ce traitement mais se veut au plus près du contexte.


Etude de cas.

Le débat sur l’identité nationale initié par le gouvernement français au cours de la mandature 2007–2012 a fait l’objet d’un traitement statistique par les chercheurs qui ont développé le logiciel IRaMuTeQ. L’objectif était de comprendre et de rendre compte de la profondeur du débat contrairement aux divers comptes-rendu médiatiques. Pour Pascal Marchand et Pierre Ratinaud, “l’analyse par IRaMuTeQ permet de rendre compte du contenu de toutes les contributions, sans piocher au hasard dans la masse, ni faire intervenir nos propres préjugés. Il s’agit juste de reconnaître et de trier automatiquement l’intégralité du vocabulaire utilisé par les internautes pour obtenir des classes de discours”.

Ils ont analysé les 18 240 contributions publiées sur le site web du Ministère de l’Immigration, de l’intégration, de l’identité nationale et du développement solidaire.

Leur traitement comprenait plusieurs procédures qui ont permis de mettre en perspective les propositions et d’obtenir des résultats significatifs. Cinq thématiques ont ainsi été isolées et rapprochées des contributions individuelles. Voici un exemple d’interprétation possible à partir des calculs réalisés par le logiciel IRaMuTeQ :

Cette première étape d’analyse au plus près des verbatim constitue un niveau basique d’analyse de la structure du corpus. Elle permet à l’analyste de faire un premier bilan de ce qu’il a compris grâce au logiciel et doit permettre d’affiner son exploitation des contributions. Comme vous pourrez le constater grâce à l’extrait que nous avons reproduit ci-après, la synthèse finale ne se resservira pas de cette première analyse mais témoignera d’un degré d’abstraction important par rapport au corpus originel et aux premières analyses.

On suit donc ici l’intérêt principal de l’outil de TAL dans le cadre de la rédaction d’une synthèse : fournir des outils d’analyse, des cadres à partir desquels l’analyste pourra ensuite déployer ses interprétations de l’ensemble des contributions, en étant absolument certain de prendre en compte l’entièreté du corpus. L’outil est une pièce nécessaire mais pas suffisante du raisonnement conduisant à la construction d’une synthèse.

En partant des groupes d’opinions que le logiciel a permis de formaliser, les chercheurs ont ainsi pu exprimer des polarités qu’ils n’auraient pas remarquées en parcourant le site web manuellement. Il est d‘ailleurs à noter que le site du ministère n’a pas fait l’objet d’une politique d’open data. Dès sa fermeture, l’ensemble des données a donc été perdu, ce qui constitue une excellente illustration de la nécessité du libre accès aux données.

Ainsi, à travers l’usage d’IRaMuTeQ, les chercheurs ont non seulement extrait les thématiques abordées mais ont également explicité des émotions parfois contradictoires présentes en filigrane à travers le corpus.


L’intérêt de la démarche.

Nous avons eu l’opportunité de développer cette nouvelle méthodologie lors de la mission effectuée avec l’Assemblée nationale en octobre 2017. L’institution avait alors lancé une concertation visant à ouvrir un espace d’expression citoyenne sur le thème de la refondation de l’Assemblée ainsi que les potentielles ouvertures à la participation citoyenne au cours du travail parlementaire. Nous avons donc dû produire, en un temps relativement court, une synthèse témoignant au mieux du contenu déposé par les citoyens sur la plateforme DemocracyOS déployée par Open Source Politics pour l’occasion.

Nous avons choisi de faire reposer la synthèse sur une hybridation de deux méthodes ; nous avons ainsi isolé les verbatim qui nous semblaient les plus pertinents dans chaque catégorie. Ce processus de sélection a été rendu possible par l‘activité quotidienne de l’équipe d’Open Source Politics sur la plateforme pendant toute la durée de la consultation.

Graphique de co-occurrences
Analyse factorielle des correspondances

Ce travail nous a donné une importante connaissance intrinsèque des contributions. Nous avons adjoint le traitement automatique du langage à ce premier processus. Nous avons donc pu fournir à l’Assemblée nationale des graphes de visualisation des contributions — cela nous a permis d’obtenir une distance vis-à-vis de la concertation qui nous paraît impérative dès lors que l’on souhaite obtenir une synthèse représentative des échanges, objective, non biaisée par notre engagement quotidien sur la concertation. Cette première expérience a donc marqué la première utilisation par Open Source Politics du TAL dans la rédaction d’une synthèse qui a ainsi été d’autant plus étoffée et nourrie.

De manière plus générale, à l’issue d’une consultation en ligne, nous construisons une synthèse représentative des échanges qui ont eu lieu lors des débats. Dans cette synthèse, nous allons spécifier les exemples de verbatim les plus discriminants, qui sont aussi les plus explicites en terme de sens vis-à-vis de la problématique et des thèmes initiés lors du débat. L’usage d’une procédure de logométrie n’est pas indispensable mais elle donne plus de possibilités de lecture du jeu de données. Le traitement automatique de la langue permet donc d’enrichir la synthèse grâce à des procédures non-reproductibles par l’humain et augmentant la capacité de traitement d’un important volume de données.

En bref, voici la liste non-exhaustive des éléments qui valorisent la synthèse :

  • Un point de vue unique sur le jeu de données issu de la consultation,
  • Une représentation des mots les plus révélateurs,
  • Une visualisation graphique des données présentée de manière intelligible.
  • Une démarche objectivée mais humble : les résultats sont des pistes proposées, ils restent interprétables par le citoyen et réutilisable par qui le veut.

Conclusion.

Dans le cadre des missions les plus ambitieuses, Open Source Politics suit le processus de concertation de ses clients depuis la définition des attentes de l’organisation jusqu’à la rédaction de la synthèse et l’annonce des résultats.

Nous sommes donc impliqués quotidiennement dans le suivi des contributions, ce qui nous laisse peu de distance vis-à-vis de celles-ci. Dans l’objectif de la rédaction d’une synthèse, le traitement automatique du langage (TAL) nous permet donc de faire fi de nos préjugés tout en rendant compte de la totalité des contributions, ce qui serait chose impossible sans l’intervention du TAL.

À l’issue de ce processus nous avons donc acquis une double compétence vis-à-vis du corpus, à savoir l’implication directe et la distanciation nécessaire à l’élaboration d’une synthèse équilibrée. Celle-ci pourra alors servir au mieux son objectif premier, permettre la clarté de la contribution des citoyens pour faciliter la co-construction des politiques publiques.