Quelles sont les priorités des français en matière d’écologie ? Ce que nous apprend l’analyse sémantique du Grand Débat.

Mapping de mots de la question sur l’environnement du Grand Débat

Le Grand Débat a été un exercice démocratique sans précédent ayant non seulement donné lieu à réunions publiques et débats mais également à un appel à contributions en ligne, permettant l’expression de nombreuses opinions sur de multiples sujets : l’organisation de l’Etat et des services publics, la démocratie et la citoyenneté, la transition écologique, la fiscalité et la transition écologique.

Analyse préliminaire

Même si la représentativité des données recueillies peut être remise en cause par des professionnels des études, car rien ne la garantit et rien ne permet de la contrôler, la richesse de contenu est néanmoins là.

Le recueil de ces données n’est cependant qu’une première étape. Il est désormais indispensable de les exploiter efficacement en tenant compte de leurs volumétrie et diversité. Autrement dit, parvenir à la fois à synthétiser et rendre compte de l’étendue des contributions.

Afin de rester sur le sujet le plus consensuel, nous avons choisi de nous focaliser sur la question de la transition écologique (“Quel est aujourd’hui pour vous le problème concret le plus important dans le domaine de l’environnement ?“), en proposant de déployer une démarche que nous réalisons fréquemment pour nos clients. A savoir, l’identification automatique de thèmes et l’exploration approfondie du corpus via un outil dédié, en s’appuyant sur ces dimensions synthétiques pour restituer l’essence de cette richesse d’expressions, difficile à appréhender sans cela.

Une méthode d’analyse classique pour k-mino

Première étape : toujours la même. Quel que soit le jeu de données. Ni spécifique à ce jeu ni au traitement du langage. Comprendre les objectifs plus ou moins explicites du projet et intégrer les données. Dans ce cas, la démarche est exploratoire, les objectifs sont donc simples : faciliter le parcours dans les données et produire des visuels accessibles et explicites. Les données étant disponibles en open data au format csv, leur intégration est également aisée.

Deuxième étape, spécifique au traitement de corpus textuels : traitement du langage, correction des coquilles, enrichissement du vocabulaire par des proximités connues (synonymes en contexte…), réduction des variations (lemmatisation, racinisation…), identification des combinaisons fréquentes de mots…

Troisième étape : identification de cinquante thèmes, décrivant l’ensemble des verbatim. Ces techniques de “topic modelling” permettent de dépasser les comptages de mots, lemmes ou expressions pour identifier de véritables “sujets de discussion”. Nous avons choisi, ou plus exactement déduit de notre analyse initiale, d’en proposer cinquante, ce nombre nous paraissant le juste compromis entre synthèse opérationnelle et restitution de la richesse du corpus.

Des résultats attendus

Cinquante thèmes, aisément identifiables et renommés. Chaque verbatim pouvant aborder aucun, un ou plusieurs thème(s).

Plus d’une quarantaine d’entre eux, représentant chacun entre 4 et 9% des verbatim, correspondent réellement à des sujets de préoccupation des participants, les autres renvoyant à des modes d’expressions (démonstration appuyée sur des chiffres, collapsologie / ton catastrophé, indécision…) qui sont parfois riches d’enseignements mais sur lesquels nous ne attarderons pas dans cet article. Ils sont donc exclus de la suite de l’analyse.

Fréquence des thèmes

Ces thèmes ont été regroupés en grands sujets (macro-thèmes) plus étanches. En effet, les thèmes initiaux conservaient des interactions importantes. Nous en présentons un mapping ci-dessous; ce type de représentations permet également d’analyser les proximités entre thèmes.

Mapping des thèmes et macro-thèmes

Le macro-thème le plus important (environ 35 % des verbatim) correspond à l’attente avant tout d’une réelle volonté politique, d’une véritable ambition, tant nationale qu’internationale, se traduisant par des budgets, des lois, l’adaptation de tous nos fondamentaux, dès le plus jeune âge et l’école… Il regroupe des sujets tels que “Besoin de politiques française et européenne ambitieuses résistant aux lobbies”, “Revoir l’arsenal juridique, les contrôles et veiller à l’application de sanctions”, “L’écologie et la justice sociale doivent être transversales et préalables à toute politique” ou “Obtenir des engagements internationaux ambitieux et tenir ces engagements”.

“Wordtree” du macro-thème “Ambition / Volonté politique globale”

Les macro-thèmes “Nouveaux réflexes / nouveau modèle”, “Une autre organisation spatiale”, “Repenser les transports” et “Changer l’alimentation et l’agriculture” viennent après, représentant entre 32 et 22% des verbatim, regroupant entre 2 et 8 topics initiaux.

Exploration approfondie des thèmes

Plus de 28% des verbatim sont regroupés dans le macro-thème “Nouvelle orientation fiscale et budgétaire” et proviennent de six topics initiaux, évoquant aussi bien la taxe carbone, la slogan “pollueurs payeurs”, l’augmentation des taxes sur les carburants les plus polluants, les investissements publics, les aides aux collectivités et associations ou les déductions et aides fiscales. Cet axe peut sembler important après la crise des gilets jaunes et la colère qui en est à l’origine : nous aurions pu attendre que les participants hésitent plus largement à aborder cette dimension. Une analyse détaillée des verbatim évoquant par exemple la taxe carbone permet de constater que les contributions tiennent compte de cette colère et évoquent une taxe carbone focalisée sur les entreprises et notamment les plus pollueuses. Les contributions évoquent également l’alternative à la taxe carbone, à savoir une hausse de la TVA, les avantages et inconvénients des deux options.

Le macro-thème “Protéger les écosystèmes” peut sembler moindre, ne regroupant que 2 topics et 11% des verbatim. Cependant, une partie du macro thème “Changer l’alimentation et l’agriculture” comporte un aspect “Protection” évident. Le mapping des thèmes et macro-thèmes confirme d’ailleurs la proximité de ces deux sujets. L’arbre de mots ci-dessous analyse l’intersection des deux macro-thèmes, autrement dit les mots et combinaisons de mots caractéristiques des verbatim affectés aux deux.

“Wordtree” de l’intersection des thèmes “Protéger les écosystèmes” et “Changer l’alimentation et l’agriculture”

A l’intérieur des macro-thèmes “Ambition / Volonté politique globale” et “Nouveaux réflexes Nouveau modèle”, semblant se focaliser sur des niveaux d’analyse différents, les thèmes regroupés rendent compte de considérations potentiellement opposées et qui correspondent à des perceptions ou “stratégies” différentes; aucun verbatim n’aborde d’ailleurs réellement les deux visions, que certains auraient pu imaginer complémentaires plus qu’opposées. “Ceci n’est pas un problème français mais mondial” représente 5,2% des verbatim, tandis que “Chacun sa part (mégots, éclairage des enseignes et bureaux la nuit…)” en représente 4,4%. Autrement dit, des volumes similaires correspondant à des approches et réflexes diamétralement opposés sur les problèmes environnementaux.

Au sein de ce débat, la grande majorité des interventions respecte les quatre grandes dimensions proposées par le Gouvernement ; apparaît néanmoins un sujet pour certains connexe : le véganisme et le bien-être animal. Il est rapproché de la transition écologique par des considérations relatives aux conséquences environnementales et sanitaires de la consommation de protéines animales, à commencer par celles de l’élevage, mais nombre d’aspects détaillés dans les verbatim dépassent cette dimension commune. Ils évoquent la maltraitance animale, la chasse, les cirques, la corrida, l’expérimentation animale, la reconsidération des animaux dits “nuisibles”…

“Wordtree” correspondant aux verbatim évoquant la cause animale

Ce grand débat permet également l’expression d’idées inattendues. Par exemple, le thème “Pas assez de poids des experts scientifiques / Trop aux politiques, lobbies et journalistes” regroupe des verbatim manifestant l’envie d’une plus grande visibilité, d’une plus grande mise en avant des non politiques, associée à une aspiration de discours de vérité et la restitution d’une complexité sans cela absente. Même si bien évidemment l’indépendance ou le choix desdits experts peut renvoyer à des problèmes politiques.

Analyse croisée avec les métadonnées

Le fichier fourni comporte peu de renseignements complémentaires (ou métadonnées). L’information du département de résidence du participant permet néanmoins de retrouver des hiérarchies différentes, les verbatim parisiens faisant par exemple la part belle aux transports en commun. Ils sont a contrario moins concernés par l’incidence des poids lourds. (En bleu foncé : France entière ; bleu clair : Paris)

Fréquences comparées des thèmes entre les contributions parisiennes et l’ensemble des contributions

Il est également possible, à partir de cette donnée départementale, d’enrichir les verbatim de données issues du recensement et de croiser les informations. Par exemple, la part d’agriculteurs (appelée PCS1 par les initiés) dans le département et la part de verbatim évoquant l’usage des pesticides. Le graphique ci-dessous montre un lien positif entre les deux phénomènes.

Lien entre la part d’agriculteurs dans le département et l’évocation de l’usage des pesticides

L’intégration naïve de cette donnée départementale peut néanmoins se révéler dangereuse et certains résultats contre-intuitifs ou décevants peuvent provenir de ce niveau d’analyse très agrégé.

La plongée en détail dans les données permet également la mise en évidence de quasi-doublons, autrement dit d’expressions répétées. Ainsi, 111 contributions, très proches, réclament “la mise en place d’une commission d’enquête parlementaire sur la validité du modèle animal dans l’expérimentation scientifique”. Ces verbatim sont également très concentrés dans le temps (on note notamment deux pics, le 15 février et surtout le 5 mars).

Distribution dans le temps de “… une commission d’enquête parlementaire sur la validité du modèle animal …”

Une affaire d’outils avant tout

Grâce à notre outil automatisant les étapes d’intégration, de traitement du langage et topic modelling, le processus complet d’analyse suivi habituellement par nos clients et incluant la sélection des thèmes, leur interprétation et leur agrégation en macro-thèmes nous a pris quelques heures. Ainsi, la mise à disposition d’un prototype de démonstration d’analyse du corpus intégrant ces dimensions a été faite en une demi-journée. Nos clients profitent régulièrement de la performance de cet outil, nous souhaitions cette fois-ci rendre compte de son efficacité dans un article et permettre aux visiteurs du Printemps des Etudes de le tester sur notre stand.

Les métadonnées fournies étant essentiellement déduites du département, cette étude ne permet donc pas d’analyse plus fouillée sur les discours associés aux différents profils des contributeurs. Lors d’analyses de questions ouvertes ou de données issues du web plus qualifiées, l’analyse du détail des croisements peut être ainsi démultipliée. Aussi simplement que celles effectuées pour cet article.

Une démonstration de l’outil permettant de naviguer dans les verbatim, thèmes et macro-thèmes sera possible sur notre stand au Printemps des Etudes jeudi 11 et vendredi 12 avril. N’hésitez pas à venir nous voir pour nous poser vos questions sur ce projet.

Vos données analysées par votre expertise

Ce projet a été analysé et calibré par les équipes de k-mino pour cet article et la démonstration de l’outil associée. Dans le cas d’un projet client, nous pouvons tester plusieurs niveaux de thèmes avec le client pour choisir le plus adéquat à ses besoins d’analyse, voire paramétrer avec lui des analyses graphiques et statistiques complémentaires.

L’outil propose d’aller plus loin dans l’analyse du discours ; les utilisateurs ont par exemple l’opportunité d’explorer les modes d’expression, identifier et expliciter les proximités entre thèmes, détecter des signaux faibles…

L’outil permet également de rechercher des sujets particuliers en profitant de la navigation par “requêtes sémantiques” (i.e. rechercher des verbatim qui évoquent un sujet sans forcément employer un mot clef explicitement défini) et ainsi injecter dans l’analyse les préoccupations propres à une expertise.

Pour plus d’information : www.k-mino.com