Module 1: le Laboratoire d’analyse des discours et des récits collectifs (LADIREC)

Published in

PDS | DSH

8 min readJul 20, 2021

Écrit par Pascal Brissette, directeur de projet

An English version of this post was published here.

Ce billet est le premier d’une courte série présentant chacune des trois composantes de la solution proposée par le Centre de recherches interdisciplinaires en études montréalaises (CRIEM) aux partenaires du Pôle d’analyse de données sociales (PDS), soit Centraide du Grand Montréal, la Direction régionale de santé publique de Montréal, le Service de la diversité et de l’inclusion sociale de la Ville de Montréal et Montréal — Métropole en santé. Ces modules abordent les défis liés à la concertation des acteur·rice·s, à l’identification et à la production de jeux de données, ainsi qu’aux types d’analyse et aux moyens de partage de données qui se doivent de respecter les principes de la protection de la vie privée. Les billets qui leur sont consacrés exposeront les moyens que nous entendons expérimenter en vue d’atteindre les objectifs de la communauté du PDS; ils présentent un état particulier du projet et de la solution, voués à évoluer. Vous êtes invité·e·s à faire partie de la discussion, à nous faire part de vos réflexions et commentaires, et à nous contacter si vous souhaitez être impliqué·e·s dans ce processus qui se déploiera jusqu’en 2025.

Œuvre murale sur laquelle un personnage tient un journal titrant, entre autres, « Nouvelle murale rue Knox » et « Les murs parlent ». — Œuvre murale réalisée par le collectif Au pied du mur sur le mur de soutènement de la voie ferrée du CN, sur la rue Knox dans le quartier Pointe-Saint-Charles, à Montréal. (Source: Pascal Brissette)

Nous vivons dans un monde d’informations, mais toute information n’est pas une donnée qui peut être utilisée en vue d’un raisonnement ou d’une opération informatique. Prenons un exemple concret. Je sors de chez moi et je marche en direction du marché public. Sur mon chemin, je croise des publicités, des tracts épinglés sur les poteaux, des graffitis, des murales. Les informations font flèche de tout bois en ma direction; elles veulent capter mon attention et souhaitent que je les traite en tant que données, c’est-à-dire comme point de départ d’une pensée ou d’une émotion. En science de l’information, une donnée est un contenu: 1) qui est fourni en entrée d’un raisonnement ou d’un processus, cognitif ou informatique; 2) qui résulte de cette chaîne et qui pourrait à son tour faire l’objet de nouveaux processus cognitifs ou informatiques.

La plupart des écrits que je croise sur le chemin du marché ne peuvent être traités tels quels par un ordinateur. Il faut que je fournisse à l’ordinateur une représentation du contenu textuel ou pictural qu’il peut assimiler et traiter. Les ressources et expertises requises pour effectuer cette transformation, puis les analyses du résultat de cette transformation, ne sont pas à la portée de tous. Des compagnies spécialisées dans ce type d’opérations peuvent faire cela pour moi, mais les coûts du processus sont prohibitifs et généralement hors de portée des citoyen·ne·s, groupes et organismes communautaires.

Partant de ce constat, le Laboratoire d’analyse des discours et des récits collectifs (LADIREC) poursuit deux visées:

contribuer à une plus grande et meilleure utilisation des données dites textuelles;
développer des partenariats avec des administrations, services, organismes et groupes souhaitant mieux comprendre les valeurs, les logiques et les narrations qui se développent au sein des communautés locales et des quartiers montréalais.

Il nourrit également l’ambition de former des étudiant·e·s aux théories, méthodes et techniques de fouille de texte (text mining) tout en cherchant de nouvelles manières d’appréhender les récits collectifs à échelle urbaine dans de grands corpus textuels. Cette ambition complète la volonté du Pôle d’analyse de données sociales de développer des partenariats qui pourront déboucher sur la création de programmes, de politiques publiques, de plans d’action qui profiteront aux communautés locales.

Le LADIREC est actuellement à mettre sur pied une équipe ainsi qu’un flux de travail et de traitement des données, dont je vous présente les grandes étapes ci-dessous.

Flux de travail LADIREC: Définir — Acquérir — Nettoyer — Prétraiter — Explorer — Enrichir — Classer — Analyser — Synthétiser

Définir. Un processus d’analyse commence par la définition d’une question de recherche, idéalement d’une problématique et d’hypothèses de travail. Cette question ou cet ensemble de questions permettront de définir les contours d’un corpus idéal, soit un ensemble d’énoncés choisi comme objet d’étude et éventuellement les sources à exploiter pour produire celui-ci. On peut partir d’un ensemble de documents existants et souhaiter l’explorer parce qu’on ne sait pas encore quel est son potentiel et ce qu’il est susceptible d’éclairer. Toutefois, si un véritable processus d’analyse doit avoir lieu, c’est parce qu’on finira par établir la question en jeu. Selon que la question est établie plus tôt que tard, elle pourra servir de point de départ pour définir les paramètres d’un corpus à constituer ou encore sanctionner le corpus préalablement constitué.
Acquérir. Une fois qu’on aura établi la question et les paramètres du corpus idéal, on définira une stratégie d’acquisition des données. On se demandera quelles sources peuvent être mises à contribution, on vérifiera les droits d’auteur et on demandera les autorisations au besoin. Si les ressources exigées pour mener à bien cette stratégie s’avèrent trop importantes, on pourra définir les paramètres d’un échantillon représentatif. L’acquisition en tant que telle peut impliquer l’écriture de scripts, des requêtes par API (interface de programmation), l’interrogation de bases de données, la numérisation et l’océrisation de documents, etc.
Nettoyer. Les données textuelles recueillies à l’étape précédente comporteront plusieurs problèmes: des caractères auront été mal interprétés par le logiciel d’océrisation; des mots coupés en fin de ligne dans le document d’origine n’auront pas été reconnus comme des mots uniques; des noms d’organismes, de compagnies ou d’individus auront été écrits de diverses manières. On profitera d’un logiciel de nettoyage (tel OpenRefine) pour résoudre une partie de ces problèmes et verser l’ensemble des textes dans une structure de données exportable dans un format spécifique (tsv, csv, json, etc.). Cette structure de données comprendra les textes à proprement parler et les métadonnées, soit les informations concernant la source du texte.
Prétraiter. Les données textuelles seront ensuite importées dans un environnement de travail qui permettra de manipuler, de modifier ou d’enrichir, en fonction des objectifs de la recherche, les textes et les métadonnées. On peut souhaiter alléger la structure de données, par exemple, en supprimant les mots fonctionnels (prépositions, déterminants, etc. qui ajoutent peu d’information et ralentissent les opérations) s’ils ne sont pas utiles à l’atteinte des objectifs de recherche. On pourra ajouter à cet élagage le retrait des mots dont la fréquence est inférieure ou supérieure aux seuils déterminés. Entrent dans l’étape du prétraitement les opérations de lemmatisation ou de racinisation, si l’on souhaite diminuer le nombre de déclinaisons des mots.
Décrire et explorer. La description statistique d’un corpus constitue un bon moyen de prendre contact avec les documents qui le composent. Quelles sont les moyennes de mots et de phrases, quels documents s’en écartent? Quels sont les mots les plus fréquents? Quelles sont les associations lexicales les plus fortes? Parmi les variables, lesquelles sont, statistiquement, les plus fortement liées? Cette description du corpus et son exploration à l’aide de techniques descriptives multidimensionnelles ne peuvent remplacer un contact direct avec les textes. La lecture «humaine» d’un échantillon significatif de documents est une étape obligée qui fournira des intuitions, suscitera des questions qui appelleront à leur tour des analyses exploratoires. On voudra savoir à quel moment tels mots ou expressions, croisés à plus d’une reprise, font leur apparition dans le corpus, s’ils relèvent d’un·e auteur·rice ou d’une source en particulier. L’exploration est donc, du moins dans le cadre des humanités numériques, une opération où la machine, sans remplacer le processus de lecture traditionnel, à la pièce, s’offre en appui à l’intelligence humaine.
Enrichir. Pour que l’ordinateur puisse mieux nous aider à analyser les textes, il faut lui indiquer, par exemple: que telle chaîne de caractères est un nom commun ou un adjectif; que tel nom commun comporte, dans tel environnement lexical, un sens positif ou négatif; que lorsqu’il croise telle chaîne de caractères dans un document, il doit associer le document à une classe ou à un thème donné. L’annotation des documents, qui peut être elle-même assistée par l’ordinateur et faite de manière semi-automatique (avec, par exemple, des logiciels comme NVivo, ATLAS.ti ou Recogito), augmente les capacités analytiques de l’ordinateur. Elle lui confère sinon une «intelligence» des textes, du moins une plus grande capacité à assister le lecteur ou la lectrice dans ses tâches d’analyse.
Classifier. La classification est l’action de regrouper les textes en fonction de critères déterminés par la question. Elle peut avoir lieu plus tôt dans le flux de travail si, par exemple, les techniques de moissonnage ont tiré des sources des documents non pertinents ou trop peu significatifs — problème que pourra révéler l’exploration des documents (étape 5). Comme l’annotation, la classification peut se faire manuellement ou de manière «automatique». L’utilisation d’algorithmes et de variables qualitatives est fréquente pour assister la classification d’un grand volume de documents; on entraîne alors l’algorithme à l’aide d’un échantillon représentatif préclassé, puis on applique le meilleur modèle au reste des documents. D’autres approches sont possibles, tel l’usage de dictionnaires ou d’expressions régulières, chacune ayant ses avantages et désavantages.
Analyser. Les intuitions et hypothèses posées dès le départ (étape 1) et renforcées ou affinées lors de l’exploration du corpus (étape 5) doivent être confirmées ou infirmées par les résultats d’analyses qui porteront sur l’ensemble du corpus. Par exemple, nous pourrions nous demander s’il est juste d’attribuer tel manuscrit anonyme du XVIIIe siècle à tel·le auteur·rice. La construction d’un modèle fondé sur le déjà-là (en l’occurrence un ensemble significatif de textes publiés par cet·te auteur·rice et par d’autres) permettra de fournir, sinon des certitudes, du moins des probabilités statistiques d’association. Les méthodes et techniques utilisées pour produire des données susceptibles d’apporter des éléments de réponse à la question de départ sont nombreuses (analyse en composantes principales, classification descendante hiérarchique, analyse de similitudes, analyse d’opinions ou de «sentiments», etc.), et des logiciels tels Iramuteq ou Voyant Tools, gratuits et ouverts, pourront en offrir un aperçu.
Synthétiser. Les types d’analyses évoqués peuvent engendrer un nombre considérable de données et de graphiques. La dernière étape consiste à comprendre et à intégrer dans une explication satisfaisante, en regard de la question de départ, ces résultats d’exploration et d’analyse. Un retour sur la méthode, ses angles morts et ses biais, de même que sur les pistes et les nouvelles questions que la démarche a suscitées, constitue le point d’arrivée — ou le point de départ — d’une nouvelle boucle d’analyse.

Toutes ces étapes forment, d’une certaine manière, une vue de l’esprit. La question de départ n’est pas toujours très claire, ni les paramètres d’acquisition du corpus. On travaillera souvent sur des fragments ou des ensembles textuels réduits, on formulera des hypothèses qui seront ultérieurement révisées, on lira des études de spécialistes avant de se lancer dans une vaste opération d’acquisition de documents. Ces allers-retours, les discussions avec les partenaires, les approfondissements et les découvertes font partie d’un processus de recherche enrichissant que l’équipe du LADIREC compte mener avec enthousiasme.

Le LADIREC est un laboratoire de recherche de la Faculté des arts de l’Université McGill. Il est actuellement composé de Pascal Brissette (directeur), Julien Vallières (coordonnateur et chargé des ressources numériques), Lisa Teichmann, Alexia Wildhaber-Riley et Yu Chen Shi (assistantes de recherche). Pour nous contacter, écrivez à pascal.brissettePASDESPAM@mcgill.ca — après avoir éliminé PASDESPAM dans l’adresse.

Pour aller plus loin

Lebart, Ludovic, Pincemin, Bénédicte et Poudat, Céline. (2019). Analyse des données textuelles. Montréal: Presses de l’Université du Québec.

Mellouli, Sehl, Boukchina, Eya et Menif, Emna. (2020). «From Citizen to Decision-Makers: A Natural Language Processing Approach in Citizens’ Participation». Natural Language Processing: Concepts, Methodologies, Tools, and Applications. Hershey (Pennsylvanie): IGI Global. https://doi.org/10.4018/978-1-7998-0951-7.

Pincemin, Bénédicte. (2012). «Hétérogénéité des corpus et textométrie». Langages, 187 (3), 13. https://doi.org/10.3917/lang.187.0013.

Pulizzotto, Davide. (2019). «L’analyse de texte assistée par ordinateur: introduction à l’un des champs fondamentaux de la sémiotique computationnelle». Cygne noir, (7). https://revuecygnenoir.org/sites/cygnenoir.nt2.ca/files/cn7_pulizzotto_0.pdf

Rizkallah, Élias. (2013). «L’analyse textuelle des discours assistée par ordinateur et les logiciels textométriques: réflexions critiques et prospectives à partir d’une modélisation des procédés analytiques fondamentaux». Cahiers de recherche sociologique, (54), 141–160. https://doi.org/10.7202/1025996ar.

Ce billet n’engage que la responsabilité de son auteur.

Le Pôle d’analyse de données sociales est un projet de Montréal en commun, une communauté de projets d’innovation dans le cadre du Défi des villes intelligentes.

Module 1: le Laboratoire d’analyse des discours et des récits collectifs (LADIREC)

Pour aller plus loin

Written by CRIEM CIRM