Pourquoi les data labs doivent-ils devenir des human-data labs

Benoit Vidal
Dataveyes Stories (VF)
10 min readFeb 17, 2020
Cette couverture représente les termes les plus fréquemment utilisés dans cet article, leurs relations et leur musicalité.

(An english version of this article is available here)

(initialement publié sur LinkedIn le 8 juillet 2019)

Au début du mois de mai à Londres, nous sommes intervenus avec Dataveyes à la Strata Data, une conférence internationale réputée lorsqu’on parle de données. L’occasion pour nous de faire entendre notre voix dans un écosystème de plus en plus complexe et encombré, et de nous plonger au coeur des discussions et des problématiques actuelles de nombreux acteurs.

Be data-driven, or die

Depuis sa création en 2011, la Strata Data Conference traite les sujets à la pointe de toute bonne entreprise data-driven. Data-driven, ou AI-first dans sa version plus à la mode, est un terme résumant à lui seul la préoccupation de tous les grands comptes depuis quelques années. D’après la plateforme de recrutement Indeed, la demande pour le seul métier de data scientist a augmenté de +344% depuis 2013, avec une croissance de +29% chaque année. Et si être data-driven était la différence majeure entre les nouveaux entrants innovants et les plus vieux mastodontes en recul ? À force d’en entendre parler, et sous la crainte de laisser passer le train de l’innovation, beaucoup d’entreprises ont pris le sujet à bras le corps en montant un data lab (ou data foundry, ou encore data factory).

Data lab : constat d’un échec ?

Qu’est-ce qu’un data lab si ce n’est des humains (maîtrisant la science des données) et des données ? Le mot lab met ici l’emphase sur le caractère expérimental des projets qui y sont mis en oeuvre. Sur le papier, le data lab semble être une bonne idée : une équipe au sein d’une organisation dédiée à tirer le meilleur profit des données et valoriser cet asset essentiel aux rouages d’une entreprise du 21ème siècle. Mais entre des structures souvent loin des opérations business et l’embourbement dans les sujets de qualité et d’accessibilité des données, le modèle semble peiner à créer de la valeur.

From Dilbert Comics

Lors de la Strata, j’ai découvert cette étude de NewVantage Partners questionnant des tops managers et autres C-level “data” sur la transformation de leurs entreprises. L’étude montre une prise de conscience générale de l’importance de la maîtrise de la donnée : en 2018, 97,2% des dirigeants ayant répondu ont déclaré que leurs entreprises investissaient dans des initiatives Big Data et AI, afin de devenir des entreprises axées sur les données. Cependant l’étude 2019 traduit une impression d’insuccès : le pourcentage des tops managers identifiant leurs entreprises comme data-driven a diminué sur les 3 dernières années (37,1% en 2017, 32,4% en 2018, 31% cette année). Cette perception dissone avec les investissements dans les projets data. D’après l’étude 2019, 92% des personnes interrogées accélèrent leurs investissements dans le Big Data et l’IA.

J’en déduis que malgré l’importance vitale et reconnue de devenir une entreprise data-driven, peu s’imaginent y parvenir. Comment peut-on expliquer cette impression, malgré un effort financier et organisationnel grandissant ?

Idée reçue n°1 : un data lab c’est avant tout des data scientists

Le premier problème auquel les entreprises ont dû faire face, en créant un data lab, a été la difficulté de recruter des compétences techniques dans un environnement nouveau et extrêmement instable.

Les entreprises ont d’abord embauché des data scientists, et seulement des data scientists. Ces derniers ont été vu comme une solution miracle, des profils à l’aise avec tous les composants de la Data Science : des connaissances mathématiques les plus fines à l’informatique des bases de données la plus complexe, en passant par la capacité à conceptualiser des processus business et industriels. Ces personnes à la fois ingénieurs, statisticiens et experts métiers sont des “licornes” : nous rêvons tous d’en apercevoir, mais elles n’existent pas.

Imprégnés de ce fantasme, les rôles “data” sont souvent définis de façon imprécise, alors même que les métiers liés à la donnée n’ont de cesse de se spécialiser. Par exemple : on ne peut pas être à la fois un data scientist expert en computer vision et en traitement du langage. D’autant plus que la réalité du quotidien des travailleurs de la donnée concerne moins l’apprentissage automatique et les réseaux de neurones, que nettoyer, structurer, déplacer les données.

Tweet par @vboykis

Sans compter que les data scientists ne suffisent pas à faire fonctionner un data lab. Très vite, des problèmes d’infrastructure techniques deviennent bloquants, et il faut recruter des profils de data engineers en complément. Puis d’autres problèmes prennent la place : le manque de compétences dédiée à la réalisation de logiciels ou d’interfaces. C’est sans fin ! À chaque fois, toutes les initiatives repartent à zéro, le temps et les budgets défilent et les résultats concrets n’arrivent pas.

Dans ces data labs, les compétences réellement recrutées ne sont pas celles nécessaires pour identifier, réaliser, diffuser des cas d’usage qui apportent de la valeur à l’entreprise : les profils sont trop cloisonnés, trop loin du business, sans vision d’ensemble. Le problème a été pris à l’envers : faire quelque chose avec les données, embauchons des data scientists, plutôt que de nous poser vraiment la question de ce qui apporte de la valeur à notre métier.

Pour innover avec les données, un data lab doit intégrer des profils autre que le seul data scientist, des profils capables de construire des logiciels qui jouent un rôle dans une stratégie d’entreprise, et capable de les insérer dans de nouvelles logiques organisationnelles. C’est à dire des consultants ou des analystes, des product managers, des data engineers, des développeurs, des designers, etc. Autant de profils qui évitent l’isolement du data lab loin de ce qui crée de la valeur pour une organisation.

Idée reçue n°2 : la valeur est dans les tuyaux

Le second problème a été de se réfugier derrière une posture de technologue, en s’intéressant d’abord aux outils et leur capacité technologique, plutôt que de chercher à démontrer la valeur que l’on peut créer à partir des données.

Ainsi beaucoup d’entreprises se sont concentrées sur le data pipeline, la “tuyauterie”, pour se mettre en capacité de répondre efficacement aux défis opérationnels que soulève le travail quotidien avec les données. Elles ont fortement investi dans les plateformes technologiques : architecture cloud, plateformes de data science, outils de business intelligence, etc. Le paysage s’est fortement complexifié en quelques années.

Big Data et AI Landscape 2018 par Matt Turck, Demi Obayomi et FirstMark

Qui n’a pas entendu parler d’un projet de data lake ? Centraliser toutes ses données, structurées comme non structurées, est en effet une promesse alléchante. Mais en évitant de se poser la question des cas d’usages, de l’utilité des données et de la valeur que l’on va en tirer, cette promesse devient la première raison de l’échec de la mise en place de ces data lakes. Mettre en place ces architectures techniques holistiques est long, coûteux. Le risque est élevé de terminer avec une infrastructure qui ne permet pas de répondre efficacement aux études de cas les plus impactantes. Même si certaines entreprises, les plus matures, ont surmonté le défi de la rationalisation de leurs pipelines de traitement de données en investissant fortement sur leur ingénierie de la donnée, cela a nécessité des moyens très importants… que toutes ne pourront pas se permettre.

Timo Elliot analytics cartoons

Il est bien plus simple et moins risqué de développer de premiers cas d’usage, de faire la démonstration de leur apport, pour ensuite travailler sur leurs passages à l’échelle en terme d’architecture technique. Bien sûr la mise en place d’un data lake peut s’avérer utile, mais le temps est un élément essentiel d’une stratégie maîtrisée : en premier lieu il semble plus judicieux de créer de la valeur par des projets qui auront un impact sur le business et l’organisation.

Le défi du data lab est un défi organisationnel et culturel

La dernière version de l’étude de NewVantage Partners indique que seulement 7,5% des data managers citent la technologie comme un besoin pour accélérer la transformation data de leur entreprise (11 points de moins qu’en 2018), contre 62,5% qui citent l’humain (14 points de plus qu’en 2018). Dans la majeure partie des data labs dont j’ai observé l’organisation, il est flagrant que la dimension humaine d’une entreprise data-driven est souvent mise de côté, ou traitée en bout de chaîne. L’impact sur les métiers, les processus, l’organisation elle-même, et la mise à disposition de la valeur créée par les données ont été oubliés.

J’ai déjà traité dans un précédent article le sujet de la place de l’humain dans les nouveaux systèmes informatiques liés au machine learning et l’impact sur nos méthodes de travail. J’y expliquais alors pourquoi les entreprises championnes du numérique adressent de façon très sérieuse cet aspect humain dans la valorisation des données, et les stratégies associées qu’elles mettent en oeuvre. À titre d’exemple, je vous invite à jeter un oeil sur ce que font les équipes dédiées à ce sujet au sein de Google et Uber :

  • l’équipe PAIR au sein du département de Google Brain, que l’on retrouve aussi à travers leur groupe Big Picture, à la pointe de la recherche en visualisation de données pour la conception d’algorithme de machine learning ;
  • le département visualisation d’Uber, destiné à réaliser des interfaces pour les autres départements de l’entreprise.

Ces entreprises ont compris qu’investir dans des compétences de data science et des outils ne suffit pas : il ne s’agit pas seulement de former plus de personnes aux métiers de la donnée, mais plutôt d’amener l’usage des données à plus de personnes.

Est data-driven une entreprise qui utilise les données hors de son data-lab

Uber développe en interne de nombreuses interfaces sur-mesure et riches en données, conçues pour servir des experts métier qui ne sont pas des experts des données. Ce faisant, Uber transforme chacun de ses employés en un data scientist. Par exemple les City Operations Managers, poste clé chez Uber dédié à la bonne gestion des opérations dans chaque ville, ont accès à des logiciels leurs permettant d’explorer les données de façon simple et intuitive. Pour y parvenir, Uber met l’accent sur les personnes capables de traduire des données en besoins métier, c’est à dire de les traduire en interfaces que les employés vont pouvoir explorer, analyser, pour mieux comprendre un contexte et prendre de meilleures décisions opérationnelles. Ces interfaces permettent aux données d’avoir un impact sur les métiers. L’avantage concurrentiel d’Uber repose sur ses interfaces, et donc sur ses consultants, ses product managers, ses designers, ses développeurs, alliés à ses data scientists et data engineers. Elles rendent possible un cercle vertueux de gestion de l’information. L’information disponible en interne devient plus fine, plus riche, partagée. Elles font ainsi jouer à plein régime les capacités de compréhension et d’analyse de l’humain couplées aux capacités de calcul, de tri, de classement de la machine.

Exemple avec ODsee, conçu et développé par Dataveyes pour RATP Dev : en transformant des données OD (Origine-Destination) volumineuses et complexes en information stratégique pour les opérateurs de transport, l’outil permet une gestion fine de la demande de mobilité, et l’interface devient aussi importante que la base de données.

Mettre les données au service des humains

Les données ne sont pas une situation, tout comme une carte géographique n’est pas le territoire : elles sont une représentation de quelques éléments, et décrivent donc une situation de façon plus ou moins précise. Cette différence est clé. Les données sont là pour inspirer la créativité des métiers et stimuler leurs analyses. Que le coeur d’un logiciel riche en données soit de nature descriptive, prédictive, ou même prescriptive, c’est grâce aux interfaces que les données fonctionnent pour les métiers. Elles permettent de créer un apprentissage de façon continue en nous mettant en capacité d’identifier, d’interpréter, de communiquer, les pièces d’information d’un puzzle et de développer ainsi la connaissance utile aux métiers. C’est une fois analysées, comprises par le maximum d’experts, que les données apporteront des perspectives utiles. Les interfaces ont cette capacité d’irriguer une entreprise de données, pour être in fine transformée en usages. Les interactions humains-données doivent être conçues en tenant compte des processus métiers et décisionnels, là où leur impact sera le plus important.

Ce travail ne peut plus être le parent pauvre des investissements dans les projets data, au contraire, il doit en être la première pierre, la pierre angulaire sur laquelle un projet assurera sa pérennité.

Illustration by Evelyn Münster on twitter

Chez Dataveyes, nous plaçons les intérêts humains comme horizon de notre démarche, car nous sommes convaincus que les données prennent de la valeur lorsqu’elles parviennent entre les mains et les esprits des utilisateurs, bien plus qu’en restant dans les data centers. Inspirée du design de service, notre approche est centrée utilisateurs, elle tient compte de la maturité de la culture interne de l’entreprise, elle nous amène à analyser ses processus métier, et à structurer son paysage informationnel.

Mettre les données au service des humains est la clé vers une véritable transformation de l’entreprise, ce que semblent avoir oublié les data labs. Rien n’est perdu pour autant, il est possible de changer d’approche et de transformer les data labs en human-data labs.

--

--

Benoit Vidal
Dataveyes Stories (VF)

input: reason • output: pleasure | Data Products @VIOOH | Co-founded @dataveyes | Data. Design. Product. In that order.