Données : qui fait le « sale boulot » ? Entretien avec Jérôme Denis

Entre promesses d’optimisation, de transparence ou de meilleure connaissance de soi, les données sont au cœur de nos sociétés contemporaines. Or ces données ne sont pas, contrairement à ce que le tout automatique voudrait nous faire croire, que le produit d’algorithmes, mais en grande partie celui de « petites mains de la donnée », bien souvent invisibilisées. Un travail complexe sur lequel Jérôme Denis, professeur au Centre de sociologie de l’innovation de Mines ParisTech, lève le voile avec son ouvrage Le travail invisible des données. Éléments pour une sociologie des infrastructures scripturales (Presses des Mines, 2018). Nous l’avons rencontré à l’occasion de la 27e édition d’ASDN, une rencontre matinale mensuelle organisée au Tank par Spintank et Renaissance Numérique.

C’est quoi, une donnée ? Est-elle justement… donnée ?

Ça dépend ! C’est toute l’idée du livre : je dresse le constat, tiré de mes expériences et observations, d’entreprises qui parlent de données et qui ne savent pas tout à fait de quoi elles parlent. Bruno Latour, par ses nombreux travaux en sociologie des sciences, estime qu’il faudrait davantage parler d’« obtenue » que de « donnée », un mot qui met davantage en évidence le fait que c’est le résultat d’un processus.

Il existe aussi des acteurs qui doivent utiliser des données et qui les considèrent comme des données, mais sans chercher à savoir comment elles ont été générées. Il est à mon sens plus intéressant de se dire : quand est-ce qu’une donnée est donnée ? Derrière ça, il y a une définition transactionnelle, moins normative, qui guide vers l’idée de travail sur la donnée. C’est pour ça que le livre part de là : qu’est-ce qui est considéré comme du « sale boulot » autour de la donnée ? Et qui doit s’en charger ? C’est ça qui importe.

Justement, qui fait le « sale boulot » ? Qui sont les « petites mains » que vous évoquez ?

Il y a beaucoup d’acteurs très différents qui interviennent dans ce processus. En sciences, tout un tas de techniciens et de machines fabriquent les données, mais la production de la connaissance scientifique par la génération de ces données a un coût : l’invisibilisation de ce travail de production, et même de saisie, essentiel et pourtant trop méconnu.

Les travaux de Sarah T. Roberts ou encore Antonio Casilli sur la modération des réseaux sociaux et le « digital labor », sont particulièrement éloquents. Ils dévoilent ces petites tâches extrêmement cruciales de maintenance de la donnée, qu’on fait croire automatisée mais qui est en réalité toujours coproduite, souvent par des sous-traitants dans les pays du tiers-monde.

Ce travail de fabrication, de maintenance voire de suppression des données est donc encore particulièrement invisibilisé, avec l’idée sous-tendue que ce genre de tâches va finir par disparaître au profit de l’automatisation. Mais ce n’est qu’un leurre, et il porte un nom : c’est tout ce qui se rapporte à la notion de « fauxtomation », largement débattue ces derniers temps.

Quel est le coût réel de cette fabrication de la donnée ?

Je vais être honnête avec vous : je ne sais pas, et je ne sais pas si quelqu’un le sait, d’ailleurs ! De nombreuses personnes qui managent de la donnée et font des plans pour des entreprises ou institutions se heurtent à la difficulté de quantifier le coût de ces plans.

Le secteur participatif, représenté par OpenStreetMap par exemple, sait aussi ce que coûte le travail de la donnée et aide à faire en sorte qu’il soit reconnu

Car s’il est souvent supposé nul sur le papier, notamment avec les premiers programmes d’open data, il existe tout de même un coût, qui peut être directement payé au quotidien par les personnes qui travaillent sur les données.

Certaines entreprises de traitement de la donnée, prestataires, consolident l’idée de coût réel de la donnée. C’est un secteur en pleine effervescence, pour lequel ce travail de traitement est reconnu, valorisé et a un prix. Le secteur participatif, représenté par OpenStreetMap par exemple, sait aussi que ce que coûte le travail de la donnée et aide à faire en sorte qu’il soit reconnu, mais dans une perspective différente puisqu’il s’agit de faire des données un commun.

Quel avenir prédisez-vous à cette industrie ?

Les entreprises qui mettent en place un plan de management des données se heurtent vraiment à cette difficulté de le faire rentrer dans les coûts de l’entreprise.

Le problème est le même pour tout ce qui touche à la maintenance, dont les opérations ont très peu de visibilité comptable. On pourrait donc considérer qu’il est souhaitable de normer davantage pour, aussi, avancer sur la question de la transparence.

C’est, en somme, quelque chose de très compliquée à résoudre : en mesurant ces coûts-là, on admettrait qu’il y a un travail de la donnée, mais on pourrait aussi être tenté de le rationnaliser et de minimiser la dimension bricolage qui est, véritablement, la compétence de certains travailleurs qui assurent un certain niveau de qualité aux données. Mais je ne crois pas qu’il n’y ait une réponse générale à ces questions. Dans le livre, j’invite plutôt à poursuivre l’enquête, à étudier des cas concrets et à prendre en compte les contraintes et réalités de chaque situation.


Parce que la multitude a son mot à dire, nous en avons débattu avec lui au Tank. Un échange à (ré)écouter en intégralité :

Nous en avons également profité pour lui poser quelques questions en vidéo. C’est le LU d’Aux sources du numérique :


Aux Sources du Numérique est un cycle de rencontres matinales au Tank, initiées par Renaissance Numérique et Spintank. Aux Sources du Numérique nourrit la réflexion sur les enjeux sociétaux, économiques et politiques de notre société numérique en invitant tous les mois un auteur ou une autrice.