Réfléchir, c’est à dire écouter plus fort.

Aujourd’hui, je vais tenter de vous expliquer comment occuper les premiers jours d’activité d’un data scientist dans n’importe quelle boite, de la TPE au grand groupe.

Pourquoi c’est passionnant ? Car si très peu de privilégiés savent à quoi ressemble un data scientist, personne n’a jamais réellement compris ce qu’il faisait toute la journée sur son ordinateur. Ne nous mentons pas.

Ce billet sera très décousu, mais tout finira par faire sens. Il sera question
de millions d’euros, de Guinness, d’ineffabilité, et d’assistance à maîtrise
d’ouvrage. Et de data, forcément, un peu.

Beckett, Paris, 1988 (https://www.pinterest.com/timmyrebel/beckett/)

Le premier point

L’Europe vient de lancer un plan d’investissement de 7.1M€ dans la #data (La Tribune), pour « faciliter les rapprochements économiques entre les grands groupes et les jeunes entreprises innovantes dans le domaine des données ». Une bien bonne idée ! On attend que les pouvoirs publics débloquent des fonds pour, enfin, pouvoir bousculer un peu ces vieux systèmes et accélérer la transition numérique des services publics. Sur un autre sujet que les amendes, si possible [*].

Bref.

Ça fait tellement sens. Même si les esprits chagrins regretteront le retard à l’allumage. Mais c’est déjà ça, et il parait que ce n’est pas la première initiative — donc la probabilité que je médise est de 45%. Quoi qu’il en soit, ça permettra de mettre le pied à l’étrier pour certaines startups et ça rassurera les grands groupes. Je parie volontiers que plein de boites vont se lancer sur des projets qu’on forcera à rentrer dans le cadre du-dit plan d’investissement. Mon téléphone va sonner …

Le second point

Comme l’écrivait jovialement notre maître à tous :

Séjour où des corps vont cherchant chacun son dépeupleur.
Assez vaste pour permettre de chercher en vain.
Assez restreint pour que toute fuite soit vaine
 — Samuel Beckett (1970)

Ces lignes me passionnent. Le livre éponyme aussi. Il s’ouvre par ces quelques mots, en guise de contexte, et propose deux descriptions assez similaires du même monde. Beaucoup d’informations, peu de signification, très peu de sens immédiat. Beckett dans un exercice de style minimaliste qu’il maîtrise, capable d’écrire simplement tout en restant bien trop chiffré pour être accessible. Forcément, j’adore.

Le lien avec la data saute aux yeux; Beckett avait tout prévu, encore une
fois. Car c’est exactement ce que ressent le data scientist quand un client lui
confie les clés du camion.

« Bon, ok, ce gars a un problème, et il va falloir que je l’aide. Son problème
est plus ou moins défini, mais il va falloir creuser un peu le truc, parce qu’en
l’état, la traduction français ->data n’est pas triviale. Si je veux être utile, il va falloir qu’on se comprenne ». On est donc dans une recherche des corps, en quête de sens. Et de quelque chose d’exploitable; car sans ce quelque chose d’exploitable, on risque de chercher longtemps, et en vain. Sans vraiment pouvoir se chercher d’excuses, puisque finalement les données sont là, dans cette base. Lumineux.

Le troisième point

La première tache du data scientist sera de faire parler, pour comprendre le monde, le métier, et les problèmes associés. Les envies, aussi. Il évitera le
plus possible de parler de son monde, de son métier, et encore moins de ses
problèmes. Un dialogue doit s’instaurer, un langage commun doit s’établir. Les mots ne sont certes pas plus creux que ce qu’ils charrient, mais si on veut avancer, il faudra faire des efforts des deux cotés. Même si parfois, les mots ont tendance à manquer.

Une fois la problématique décelée ou, à défaut, devinée, il faudra regarder les données en face: fichiers Excel, base SQL, exports non-structurés … et mettre toutes ces tables en forme. Le minimum nécessaire pour pouvoir les faire parler; dégrossir le problème initial, celui qui, une fois sur deux, se ramène à l’éternelle question « qui sont mes clients ? ». On est peu de choses. La seconde éternelle question, plus perverse, est « qu’est-ce que je peux faire avec toutes ces années de données ». Au final, on ne sait pas toujours bien ce qu’on stocke ; et s’il fallait parler du comment, ça nous emmènerait un peu loin.

Étape suivante : décider si les données permettent de répondre à la question, et si oui, imaginer la solution qui permettra de ne plus chercher en vain.

Enfin, on passe à la technique: programmation, base, maths. Classique.

Dépeupler ?

Dépeupler les bases, pour les repeupler d’indicateurs métiers.
Déconstruction, reconstruction. Sur-mesure, forcément.

A la rigueur, un matheux qui sait coder, ou un codeur qui aime les maths se
sortirait seul de l’étape technique. On peut faire mieux ! Le vrai intérêt du métier, toujours selon une étude OceanData de Juillet 2017, vient de l’intrication du technique et du métier, dans la résolution des problèmes. Inévitablement, le simple fait de poser proprement la situation et de faire émerger les problématiques permet de résoudre en partie les blocages. On pourrait avantageusement citer ici Albert Camus ou Alexandre Grothendieck [WP] mais parler de Beckett c’est déjà beaucoup de bonheur.

Le data scientist agit donc évidemment comme technicien, mais doit aussi être au plus proche du donneur d’ordre, pour pouvoir traduire le plus efficacement possible ses mots. On appelle ça de l’AMO(A) [WP], dans les projets SI.

Il ne faut donc pas uniquement amener son data scientist en rendez-vous commercial [billet], il faut aussi qu’il joue pleinement son rôle auprès du donneur d’ordre. C’est ce qui expliquera que bien des cabinets ou ESN sévissant dans l’écosystème #data vont se planter.

Irrémédiablement.

Et … les premiers jours, il fait quoi, au final ?

Il écoute. 
Il se branche sur vos données.
Il essaie de traduire les problématiques métiers/stratégiques en données et indicateurs.
Il pose beaucoup de questions, souvent très naïves, et parfois décalées.

Chaque projet est différent, et il n’y a pas vraiment de recette. La clé, c’est l’adaptation, comme souvent.


Quant à l’ineffabilité, je préfère ne pas trop en parler.


Notes
[*] Rassurez-vous: nous sommes tous déjà fichés dans au moins 17 bases de données, dont 12 hébergées hors-UE (étude OceanData, Mai 2017). Oui, alors non, alors je ne l’ai pas vraiment menée, cette étude, mais je suis sûr que si je cherche, je trouverais un étude américaine qui donnera ces chiffres.