Dans les coulisses de la Data Science

Published in

fifty-five | Data Science

8 min readMay 28, 2021

Invité du podcast « Data Managers », Romain Warlop, Data Science Manager chez fifty-five partage sa vision sur l’évolution du secteur de la data. L’occasion de revenir en détail sur le métier de Data Scientist.

Comment expliquerais-tu à un enfant de cinq ans ce qu’est le métier de Data Manager ?

Je récupère de la donnée et des informations, sur ce que les gens voient sur un site et les parcours qu’ils effectuent sur ce même site. L’objectif est de comprendre qui sont ces personnes et anticiper ce qu’elles vont faire pour ensuite adapter une stratégie marketing.

Que faisais-tu avant d’être Data Science Manager chez fifty-five ?

Je suis Data Scientist chez fifty-five depuis une éternité, c’est mon premier CDI. Avant d’être manager chez fifty-five j’étais Data Scientist tout court. J’avais moins de management qu’aujourd’hui. Avant cela, je faisais des études beaucoup plus théoriques, des mathématiques théoriques à Normale Sup’. J’ai également fait une thèse en informatique.

Quels sont selon toi les enjeux autour de ton métier ?

Il y a plusieurs enjeux. Il y a d’abord ce côté innovant qui évolue très vite et très fréquemment. Il faut donc toujours suivre ce qui se développe pour continuer à être pertinent et performant. Il y a par ailleurs les nouvelles contraintes et réglementations sur le respect de la vie privée. On en entend de plus en plus parler et ce sont de très bonnes contraintes, qui nécessitent de se réinventer régulièrement. Les choses ont beaucoup évolué depuis une dizaine d’années : l’adaptation et l’agilité sont devenus mots d’ordre si l’on veut rester pertinent, tout en se mettant en conformité.

Qu’as-tu pu observer en termes de modification de marché ? As-tu vu le marché de la data mûrir ?

Au tout début, il a fallu prouver aux entreprises qu’elles avaient un intérêt à avoir de la donnée. Il fallait montrer que c’était intéressant d’avoir de la donnée, qu’on pouvait avoir de l’information et de l’intelligence via celle-ci. Ça paraît peut-être évident aujourd’hui mais il y a 10 ans ce ne l’était pas forcément. Il fallait donc convaincre les entreprises de récupérer leurs données car cela leur permettait de savoir ce qu’il se passait sur leur site, ce que les utilisateurs faisaient et voyaient. Beaucoup d’entreprises avaient été construites avec un profiling un peu à l’ancienne, et présentaient des réticences.

Aujourd’hui c’est plutôt l’inverse. Tout est data-driven. Il faut vraiment avoir de la donnée pour pouvoir surveiller ce qu’il se passe et tirer profit des informations. Il y a donc vraiment eu un changement entre « j’ai un a priori et je l’applique » et « j’essaye de vérifier mes convictions en faisant des tests ».

Quelles sont les évolutions des outils depuis ces huit dernières années ?

Les outils ont fortement évolué. J’ai changé d’outil de travail plusieurs fois au cours de ces dernières années et on est passés de solutions locales avec de la donnée sur un ordinateur à des solutions cloud qui facilitent tous les calculs. Le deuxième changement, c’est la démocratisation de l’utilisation de la donnée. Aujourd’hui il y a de plus en plus de solutions simplifiées pour aller jouer avec la donnée en ayant le moins de compétences possibles. Le futur tend un petit peu vers ça. Il y a cette idée de simplifier l’accès à la donnée via des outils. Il faut tout de même faire attention car avec ce genre d’outils on peut facilement faire sans comprendre.

Du point de vue des organisations en interne, qu’est-ce qui a changé en termes d’organisation ?

Ce qui a changé c’est la place du Data Scientist. Au début, nous étions assez peu en contact avec les clients. Le Data Scientist était plutôt présent au sein de grandes entreprises, voire dans quelques cabinets de conseil. Le poste a été intégré au fur et à mesure dans les équipes, mais finalement de manière un peu esseulée, et on s’est vite rendu compte qu’un Data Scientist tout seul -qui ne comprend pas ce que le reste de l’entreprise fait et dont le reste de l’entreprise ne comprend pas ce qu’il fait- ça ne fonctionne pas. Donc il y a eu un peu ce balbutiement avant de pouvoir totalement tirer profit des Data Scientists. Et aujourd’hui, de plus en plus, les Data Scientists sont épaulés par des personnes plus proches du métier, qui ont aussi une compréhension plus technique. Finalement, ce qui fonctionne c’est d’avoir une vraie équipe data et pas une personne en silo.

Quelles sont les qualités que le Data Scientist doit avoir pour vraiment réussir ce job ?

La première qualité, c’est d’aimer coder. C’est quelque chose que l’on fait au quotidien. Et il faut surtout aimer résoudre des bugs. Moi j’adore être confronté à un bug, c’est comme une sorte de puzzle qu’il faut essayer de décortiquer. Il faut avoir cette appétence pour les choses qui ne fonctionnent pas et essayer de les faire fonctionner pour avoir cette satisfaction à la fin d’avoir quelque chose qui fonctionne. La résolution de problème représente 80 % de notre travail, donc il faut avoir cette appétence. Ensuite il faut aussi aimer la documentation, lire les blogs, les papiers de recherche… Car ce métier évolue très fréquemment. Entre les cours donnés en Master lorsque j’y étais et les cours donnés aujourd’hui, ça a grandement évolué. Donc il faut vraiment se documenter régulièrement pour rester à la page. Il faut aussi avoir envie de vulgariser, de faire comprendre le métier. On ne peut pas avoir un problème déjà très bien posé et formulé et partir tête dans le guidon. Il faut d’abord comprendre pourquoi est-ce qu’on fait ça et pourquoi est-ce qu’on le fait de cette façon et pas d’une autre. La vulgarisation est donc importante pour pouvoir dialoguer et échanger avec les personnes autour de nous et choisir la bonne démarche.

On dit souvent qu’un bon Data Scientist est quelqu’un de rigoureux, mais aussi de créatif… Quelle est ta part de créativité ?

C’est vrai qu’il faut être capable d’inventer et de créer. Après il ne faut pas essayer de réinventer à chaque fois, mais plutôt de capitaliser sur ce qui a été déjà fait et chercher différentes façons de régler le problème, de le détourner, de le résoudre. On entend souvent que les algorithmes que l’on utilise en Data Science sont des algorithmes qui existent depuis cinquante, soixante ans, voire plus. Mais quand on regarde de plus près, on voit qu’il y a des petites modifications assez précises à certains endroits qui permettent de faire la différence entre quelque chose qui ne fonctionne pas et quelque chose qui fonctionne. Il faut en réalité modifier au quotidien pour avoir ce gain de performance qui fera toute la différence.

Quel est le cas d’usage dont tu es le plus fier ?

Globalement ce sont tous les différents cas d’usages qu’on va faire appliquer sur les différents systèmes de recommandation. J’ai fait ma thèse sur les systèmes de recommandation donc j’ai toujours cette petite appétence pour ces sujets-là.

J’ai pu créer de nouveaux algorithmes de recommandation qui ont ce petit gain de performance qui font toute la différence. Notamment toutes les problématiques qu’on appelle « de complétion de panier » ou « de suggestions d’articles supplémentaires » : ce sont des problématiques que l’on voit assez régulièrement dans la vie de tous les jours quand on va sur Amazon par exemple…

Cela m’a permis de développer ce type d’algorithme qui n’existait pas avant et quand on arrive à tester ces algorithmes et à montrer qu’ils fonctionnent, c’est toujours valorisant.

Peux-tu nous parler des différentes applications de Machine Learning ?

C’est vrai que le Machine Learning est partout aujourd’hui. La chose dont on se rend le plus compte au quotidien, c’est quand on écrit des messages. Avoir une suggestion automatique pour compléter le message, c’est du Machine Learning. Il y a aussi toutes les applications des voitures autonomes. Ces applications doivent comprendre l’environnement dans lequel elles sont et analyser les images pour comprendre si c’est un feu rouge, un feu vert, si on doit tourner à droite ou à gauche, si c’est un panneau stop ou un panneau prioritaire, etc. En fonction de cette compréhension de l’image, l’algorithme pourra prendre les bonnes décisions pour avancer, freiner ou tourner.

D’un point de vue plus marketing, ce sont des applications qui suggèrent des produits ou qui font du ciblage publicitaire. On va recevoir des publicités adaptées à notre comportement, à notre appétence. Il y a également d’autres applications marketing ou les marques vont chercher à anticiper, à comprendre, ce que l’utilisateur va faire : est-ce qu’il va acheter un produit dans un temps court, est-ce qu’il cherche à se désabonner, est-ce qu’il est de moins en moins engagé avec la marque, est-ce qu’il va demander un rendez-vous en boutique. Essayer d’anticiper ce comportement-là permet d’adopter une stratégie adéquate pour maximiser la satisfaction client. Il y a aussi des applications d’analyse et de compréhension, plus ciblées sur les performances. Elles permettent de savoir qui sont les personnes sur un site internet donné, ce qu’elles font sur le site, ce qu’elles voient, ce qu’elles aiment faire, etc. Je peux par exemple analyser les résultats d’une publicité réalisée à la télévision : est-ce que ça a fonctionné et si oui à quel point ? Sur quelle chaîne ça a le plus fonctionné ?… Pour tout cela il faut du Machine Learning.

Quel est l’apport de l’Open Data pour un Data Scientist ?

C’est un sujet qui se démocratise de plus en plus. C’est très important de mettre en commun des jeux de données publiques pour pouvoir développer, tester, mesurer et innover… C’est quand les données deviennent publiques que l’innovation se fait sentir et que la croissance est la plus forte. L’exemple le plus parlant est le plus connu peut-être c’est celui du challenge Netflix. Il y a eu des centaines et des centaines de publications qui ont été effectuées suite à ce challenge avec des données publiques.

Un autre exemple d’Open Data concerne un challenge qui a eu lieu pendant des années, sur de l’analyse d’images. De la même manière, ça a vraiment donné un énorme coup de boost à toute la recherche sur l’analyse d’images et ça a permis d’avoir toutes les applications que l’on a aujourd’hui dans les smartphones avec les filtres ou la voiture autonome. Donc le partage de données est vraiment le cœur du réacteur, le point de départ du développement.

Comment fais-tu avec ton équipe pour concilier les projets d’aujourd’hui et anticiper ceux de demain ?

J’essaye de figer des moments précis dans la semaine : consacrer une demi-journée, un jour par semaine, qui va être libéré pour se renseigner, s’ouvrir l’esprit et tester de nouvelles choses. Une autre chose que l’on fait, c’est de se réunir pour définir les projets sur lesquels on aimerait travailler et donc avoir un objectif plus précis sur ce que l’on va développer pendant ce temps libre sans partir dans tous les sens. Ensuite, j’organise régulièrement des réunions avec mon équipe pour partager toutes les découvertes, et ce qui a été appris ou testé. J’installe ces moments dédiés au partage pour installer une forme de contrainte qui incite à la recherche et la veille, et cela permet de garder un équilibre.

Quel est l’avenir de la Data Science selon toi ?

Pour moi c’est une démocratisation de la Data Science. C’est-à-dire avoir de plus en plus de personnes qui pourront travailler sur ce genre de projet avec des applications de plus en plus imprégnées dans le monde aujourd’hui.

Une punchline pour parler de la Data Science ?

La Data Science, c’est faire faire à un ordinateur en dix secondes, ce qu’un humain peut faire en un mois !

Cet entretien a été retranscrit du Podcast Data Managers.

Dans les coulisses de la Data Science

Written by fifty-five | Data Science