La Civic Tech, l’Open data et le citoyen : une mise à l’épreuve de la transparence

Dans un premier article, nous avons vu les conditions nécessaires pour un numérique au service de la participation citoyenne, autour de quatre grands axes de réflexion : la transparence, la gestion de la masse, la traduction des données, et la co-construction du politique. Afin de récupérer les quelques “retardataires” sur la question de la transparence et des réponses apportées par le numérique, je vous propose ici un raisonnement en trois étapes :

  1. Les origines du besoin de transparence dans la France contemporaine : tentons d’abord de comprendre l’évolution récente de la revendication de transparence.
  2. Les initiatives et champs d’exploration de l’Open Data
  3. Les limites de la transparence numérique : les biais inhérents à l’utilisation de données massives, l’équité d’accès à la transparence numérique et la nécessité d’une citoyenneté éclairée.

1. La transparence, une réponse à un climat de méfiance

Pour Frédérick Lemarchand¹, sociologue spécialisé sur l’étude des vulnérabilités dans les sociétés technoscientifiques, la demande de transparence vient en réponse à une perte de confiance envers les trois piliers traditionnels de la modernité que sont l’Etat, le marché et la science. Pour le sociologue, depuis les années 80 les situations de crises et les “affaires” ont largement entamé la confiance des citoyens. Les drames sanitaires qui se succèdent dès cette époque sont autant de points de “non retour” qui conduisent à douter du discours politique, médiatique et les acteurs du monde économique : on se souvient de l’affaire du sang contaminé, du nuage de Tchernobyl en 1986, et plus tard du scandale de la “vache folle”. Cette méfiance ne fera que s’accentuer les décennies suivantes avec les crises économiques et sociales que nous connaissons. Par la suite, les “affaires” touchant la classe politique, de Cahuzac à Fillon, terminent d’émousser une confiance déjà fragile envers les élus. Cette méfiance ne concerne d’ailleurs pas que les élus mais les partis politiques, et mène à la création de “mouvements” censés être apartisans. Puis, alors qu’en parallèle le web se démocratise et que les technologies numériques se développent, la confiance envers les plateformes web est aussi mise à rude épreuve et ce terrain de jeu des années 90 où l’anonymat semblait promettre une égalité d’expression, où liberté rimait avec gratuité, ne tient lui aussi pas toutes ses promesses : usages abusifs des données personnelles, digital labor, piratages en tout genre,... C’est dans ce climat de méfiance généralisée que naissent les premières tentatives numériques vers un idéal de “transparence”.

L’Open Data, solution technique au désir de transparence

L’idéal de transparence par le numérique, c’est de partager des données pour favoriser une réflexion globale et la participation de tous les citoyens. Je vous propose de revoir les actions les plus importantes menées par le public, l’associatif ou le privé ces dernières années.

2. Un numérique au service de la transparence

La question de la transparence des données sur le territoire français fait son chemin : les initiatives de l’Etat ont été portées par la création de la Haute Autorité pour la Transparence de la Vie Publique en 2013 puis le Partenariat pour un Gouvernement Ouvert en 2014². Un plan d’action national pour la France sur les données ouvertes est réalisé entre 2015–2017, comprenant la mise en oeuvre par Etalab³ du projet Data.gouv.fr auquel tous les citoyens peuvent contribuer. Viennent les initiatives d’entreprises, La Poste et SNCF en tête de file : le portail open data de la sncf propose notamment une consultation et un export des données qui concernent la régularité des trains. Afin de rendre visibles ces différents portails de données, OpenDataSoft a fait un travail admirable en créant une carte internationale des portails, où l’on compte 156 portails de données en France.

Voir le portail ? C’est ici !

Si le processus d’ouverture des données fait son chemin, il ne se fait pas sans douleur et peut se révéler complexe dès la récolte des données. C’est ce que nous raconte Samuel Goeta dans sa thèse sur les coulisses de l’open data⁵ . Il rapporte les témoignages des chefs de projet d’Etalab lors de la récolte (ou tentative de récolte) de données brutes du projet Open Data Rennes Métropole, et liste les difficultés rencontrées : le reformatage nécessaire de données non exploitables pour l’open data, les blocages des prestataires quand au partage de leur architecture de données considérée comme ayant une valeur commerciale, mais aussi la difficulté à jongler avec les différentes législation autour des données personnelles. Sur ce derniers sujet qui mériterait un article à lui seul, le RGPDne répond pas à toutes les questions que posent l’open data.

Mais une fois que ces données sont créées, que deviennent-elles ? Elles améliorent des initiatives existantes, comme celle de Regards Citoyens pour la transparence des élus députés et sénateurspar la mise à disposition de l’Open data de l’Assemblée nationale. En ce qui concerne les jeux de données brutes accessibles sur Data Gouv, ceux-ci peuvent être utilisées dans le cadre de la Licence Ouverte. Ainsi, le citoyen peut les exploiter comme il le souhaite, à la condition qu’il mentionne le contributeur et la date de mise à jour du jeu de données. Les Entrepreneurs d’Intérêt Général proposent des applications concrètes, comme par exemple l’outil Adler dédié à la lutte contre la fraude. Enfin, un exemple d’actualité qui fera date dans la Civic Tech française est l’appel de l’IFRIS¹⁰ pour l’union des forces vives dans l’analyse du Grand Débat, en parallèle de l’initiative lancée par Code for France et Data for Good : la Grande Annotation. Partant du principe que “l’intelligence artificielle seule ne vaut pas une lecture humaine”, les contributions au Grand Débat disponibles en open data peuvent être annotées par tous afin de favoriser une alternative à l’analyse du débat via les outils statistiques. Une chose est par ailleurs importante, notamment pour ceux qui comme moi défendent l’interdisciplinarité, est l’alliance dans ce projet d’acteurs issus du monde du numérique et d’autres issus de la recherche statistique, sociologique, soulignant ainsi les possibles d’un Open data réflexif¹¹.

Exemple d’annotation de contribution proposant d’analyser le contenu de la contribution dans une logique “humaine” et non seulement basée sur l’analyse sémantique :

Enfin, les défenseurs de l’open source vont au bout du raisonnement sur la transparence : laisser l’accès libre au code afin que l’outil numérique puisse être analysé, commenté puis modifié par la communauté de citoyens-développeurs. Ce processus de transparence numérique a pour fin de donner la possibilité à tous les contributeurs de contrôler les mécanismes fonctionnels et algorithmiques de l’outil qui récolte ou traite la donnée. Des portails data appliquent déjà ce principe, comme CKAN dont les sources sont facilement disponibles sur github en trois clics.

3. Les limites de la transparence par l’outil numérique

“Bien informés, les hommes sont des citoyens ; mal informés ils deviennent des sujets”. Cette citation attribuée à Alfred Sauvy est souvent rapportée lorsqu’il s’agit de transparence au service du citoyen. Mais cet économiste, démographe et sociologue français écrivait aussi :

“Les chiffres sont des êtres fragiles qui, à force d’être torturés, finissent par avouer tout ce qu’on veut leur faire dire”.

Là où l’ouverture des données trouve ses limites, c’est dans les biais qu’elle rencontre, des biais qui ne sont pas nouveaux car bien connu des statisticiens, mais qui pourraient avoir des conséquences accentuées par les outils de communication, par la vitesse d’appréhension de l’information, et par une forme de tyrannie de la majorité comme conséquence potentielle d’une gestion de masse.

Les biais inhérents au traitement des données :

Les biais en statistiques sont les démarches ou procédés qui engendrent des erreurs dans les résultats d’une étude. Ils peuvent prendre différentes formes : des biais de représentativité (relatif à l’échantillon de population concernée), des biais de publication (données davantage diffusées lorsqu’elles arrangent les auteurs de l’étude), des biais cognitifs (interprétation faussée de l’information), etc…Cette question n’est pas anodine et ne dépend pas que d’une future législation : pour prendre un exemple, la plupart des instituts de sondage pourtant professionnels du traitement de la donnée ne présentent pas systématiquement les marges d’erreur sur les résultats qu’ils diffusent à grande échelle alors que la loi les y obligent et qu’une commission est dédiée à leur contrôle¹². Archon Fung, professeur de démocratie et de citoyenneté à l’Université Harvard et cofondateur du projet de politique de transparence explique très bien ces biais potentiels de l’exploitation des données : l’interprétation des données par les citoyens est “indissociable de leurs intérêts, désirs, ressources, capacités cognitives et contextes sociaux […] En raison de ces facteurs, les personnes peuvent ignorer des informations, les comprendre ou les utiliser à mauvais escient. La question de savoir si et comment les nouvelles informations sont utilisées pour atteindre les objectifs publics dépend de leur intégration dans des chaînes complexes de compréhension, d’action et de réaction.”¹³. Prendre le temps de créer un cycle vertueux de compréhension, d’action et de réaction face à la masse d’informations disponible, c’est un objectif ambitieux mais nécessaire afin d’éviter qu’à moyen terme la transparence par le numérique, au lieu de créer de la confiance, accentue les méfiances dans l’usage des données.

Équité d’accès à la transparence numérique :

Une autre limite est celle de l’ouverture à tous, dans un contexte où la technique et par extension le technicien se révèlent être au sommet d’une hiérarchie de la connaissance. En effet, les développeurs, les administrateurs système, les statisticiens, les data scientists, sont les premiers concernés par la création de bases de données facilement exploitables en open data, le contrôle et l’exploitation des jeux de données, et la contribution aux outils accessibles en open source. Si demain les politiques publiques sont orientées par l’exploitation de l’open data dans des débats citoyens, si les outils à usage sociétal comme Parcoursup ou les plateformes de débat sont soumis aux contrôles et à la contribution des citoyens-développeurs, faudra-t-il tous acquérir une connaissance du code comme on apprend une langue étrangère ? On touche ici à la limite d’un l’idéal de l’équité d’accès à la transparence numérique. Etant donné que nous ne sommes pas (encore) dans des sociétés de citoyens-développeurs, gagner la confiance et fédérer autour d’outils qui resteront pour la majorité une boîte noire est un défi complexe à relever.

Comprendre pour analyser :

Enfin, au delà des possibilités que nous offre la technique, il y a la nécessité de nourrir et de conserver un esprit critique vis à vis de ces outils et des données qu’elles rendent visibles. Les données ouvertes ne sont utiles que si les citoyens peuvent les comprendre pour les exploiter à bon escient. Ainsi, il devient particulièrement important de cultiver une connaissance interdisciplinaire : dans une société ultra-spécialisée, être citoyen c’est certainement acquérir des connaissances politiques, philosophiques, techniques, sociologiques et culturelles qui donnent à chacun des armes de compréhension du monde.

Il faut donc savoir profiter des possibilités que ces technologies nous apportent sans trop les idéaliser, et réaliser que la machine étant créée par l’homme, elle devient fatalement le reflet de choix sociaux, politiques et idéologiques. Je finirai donc sur cette excellente citation d’Ethan Zuckerman, directeur du MIT Center for Civic Media¹⁴ :

“Dans un monde dans lequel nous pouvons relier toutes les données, nous devons apprendre à lire et à écouter avec plus d’attention, plus de prudence et plus de scepticisme. Surtout lorsque les données nous amènent aux conclusions que nous voulions voir se dessiner.”

Dans le prochain article, nous poserons la question de la gestion de la masse, le second axe de réflexion introduit au début de cette série.

Au passage, bon week-end aux participants de la Nuit du Code Citoyen 2019 ;) !

Vous souhaitant une excellente journée, je vous dis à très bientôt.

Ophélie Coelho


1. Frédérick Lemarchand est professeur de sociologie à Caen et Codirecteur du CERREV (Centre de recherche sur les vulnérabilités). Il réfléchit sur les aspects transversaux des rapports entre éthique et politiques publiques en environnement.

“Un rapport de méfiance semble de plus en plus caractériser les rela­tions de la société aux technosciences (industrie nucléaire, bio et nano­tech­nologies, etc.) là où trente ans auparavant une confiance aveugle prônait le développement technologique comme une éthique du progrès, dans le cadre d’un pacte passé dans l’après-guerre entre l’État, l’industrie et le travailleur.” https://journals.openedition.org/ethiquepublique/1382

2. En savoir plus sur l’OGP (Open Government Partnership), Etalab et Data.gouv.fr : https://www.modernisation.gouv.fr/home/gouvernement-ouvert-la-france-publie-son-plan-daction-national-ogp

3. La mission d’Etalab : https://www.etalab.gouv.fr/qui-sommes-nous

4. https://opendatainception.io/#?q=france

5. Samuel Goeta. Instaurer des données, instaurer des publics: une enquête sociologique dans les coulisses de l’open data. Télécom ParisTech, 2016, disponible ici : https://pastel.archives-ouvertes.fr/tel-01458098

6. Réglement général sur la protection des données adopté par le Parlement européen le 14 avril 2016.

7. Présentation par Regards Citoyens https://www.regardscitoyens.org/nosdeputes-fr/

https://www.nosdeputes.fr/

8. Modalités de la licence détaillées ici : https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf

9. En savoir plus sur le projet Adler : https://entrepreneur-interet-general.etalab.gouv.fr/defis/2019/adler.html

10. CivicTech en Société — CiTechSoc / Pour l’exploration pluraliste des débats numériques : http://ifris.org/appel/civictech-en-societe-citechsoc-pour-lexploration-pluraliste-des-debats-numeriques/

11. “Une démarche réflexive en science consiste en une prise de conscience et en un examen approfondi de sa propre démarche scientifique. Le chercheur doit réaliser qu’il s’inscrit lui-même dans des traditions culturelles, dans des cadres sociaux,… Il s’agit de sortir des “mécanismes d’explications” qui donnent l’illusion de comprendre son objet d’analyse de façon transparente.” Source : Wikipédia

12. Sur ce sujet, consulter http://www.observatoire-des-sondages.org/ mais aussi les obligations listées par la commission spécifique http://www.commission-des-sondages.fr/oblig/obligations.htm

13. Full disclosure: The perils and promise of transparency, Archon Fung, Mary Graham, and David Weil. En savoir plus sur Archon Fung : http://www.archonfung.net/

14. On connecting the dots — a response to Lessig on transparency, Ethan Zuckerman http://www.ethanzuckerman.com/blog/2009/10/12/on-connecting-the-dots-a-response-to-lessig-on-transparency/