Data Scientist : au cœur de l’Innovation

Ividata Life Sciences

Published in

Ividata Life Sciences

8 min readFeb 11, 2020

IVIDATA vous présente Klimane Mehaddi — Data Scientist/Data Engineer, dans sa nouvelle série de rencontres, des articles pour découvrir des métiers, des experts et de nouvelles problématiques liées aux défis que nous pouvons rencontrer dans notre vie professionnelle.

Klimane, Pourrais-tu nous résumer ton parcours jusqu’ici, par quoi as-tu commencé ?

J’ai fait mes études à la Sorbonne où j’ai dans un premier temps fait une licence en informatique dans laquelle j’ai appris à programmer. Je suis par la suite entré dans le domaine du BigData en intégrant un Master en Machine Learning et Deep Learning.
Puis, j’ai eu l’opportunité d’intégrer l’un des leaders de l’affichage et de la publicité urbaine, où j’ai été Data scientist mais aussi Data Ingénieur pendant 2 ans. J’ai d’ailleurs travaillé sur un projet de maintenance prédictive, proof of play, proof of audience.

Subséquemment, j’ai observé un certain nombre de Use Cases, qui provenaient d’autres équipes, plus particulièrement des Data Ingénieurs, environnement auquel j’ai commencé à m’intéresser. J’ai débuté avec du Spark Streaming écrit avec du Scala et par la suite du Kafka Stream (client) écrit sous Java parce qu’ils avaient un Cluster Kafka dans l’entreprise où j’étais.

En septembre 2019, j’ai intégré l’un des leaders du conseil dans l’espoir de travailler sur le Cloud, puis je me suis rapidement tourné vers IVIDATA qui proposait alors des missions plus adaptées aux profils de ses collaborateurs.

Qu’est-ce que tu entends par Deep Learning aujourd’hui ?

C’est beaucoup plus simple que ce que l’on ne pense. Il s’agit d’un réseau de neurones profonds.
Ce sont des produits matriciels en grand nombre, cela permet de calculer les poids que le réseau apprend. Si nous employons le terme profond c’est parce qu’il y a plusieurs couches et donc plusieurs produits matriciels.

À quoi comparerais-tu ton métier ?

Métaphoriquement, je pourrais me comparer à une Tool Box/Boîte à Outils.
Nous essayons de collecter les données et de voir ce que nous pouvons en faire. C’est grâce aux besoins métier que nous définissons ce que le data ingénieur fera.
Je dirais que cela s’apparente à de l’aide à la décision, de la simplification de processus, automatisation.

Peux-tu nous expliquer ton métier de Data Ingénieur et celui de Data Scientist ?

Le Data Ingénieur peut venir et trier les données dont il a besoin, les arranger, les enrichir puis organiser le stockage externe ou au sein du Data Lake mis en place.
Une fois ces données récoltées et triées, le Data Scientist va traiter et analyser les données, ensuite il peut prédire l’évolution de ces données et peu aussi les classifier.
Le Data Scientist peut utiliser des méthodes statistiques anciennes ou bien des méthodes récentes comme le Machine Learning et le Deep Learning pour effectuer ces tâches (prédiction, aide à la décision, classification, Clustering, Forecasting…).

Je ne fais que du Back-end, généralement les Data Scientists autant que les Data Ingénieurs n’apprécient pas le front. Ils préfèrent installer des outils de Data Viz et mettre par la suite les données dans des bases.

Pourquoi t’es tu dirigé vers le métier de Data Ingénieur ?

Un projet de Data Science ne prend pas en soi beaucoup de temps, entre quatre et six mois, cela dépend du traitement qu’il y a derrière, sinon la recherche et l’écriture de l’algorithme n’est pas la tâche la plus difficile.
Le fait d’arranger les données, leurs trouver un espace commun ou bien réaliser l’apprentissage du modèle est relativement plus complexe.

Lorsque j’étais Data Scientist, nous attendions que les données soient prêtes pour les utiliser. Je me suis dit pourquoi ne pas le faire moi-même. Cela me permet de décider du format, et d’autres facteurs directement, ce qui me simplifie la tâche en tant que Data Scientist.

Avant de commencer chez un leader de l’affichage, je me suis formé sur le Big Data, j’ai passé trois certifications qui m’ont aidé à voir la logique du process. Je n’ai pas vraiment rencontré de difficultés en devenant Data Ingénieur, les seuls problémes que je rencontre sont généralement solvables rapidement grâce à Google.
C’est vraiment mon précédent travail chez le leader de l’affichage qui m’a permis d’apprendre par l’expérimentation ce nouveau métier.
Chez eux, je devais récolter des données en temps réel, les enrichir puis les stocker.

Peux-tu nous expliquer ce qu’est un Cluster et nous donner un exemple d’application ?

Prenons comme exemple la récolte de données en temps réel chez un client qui fait de l’affichage. Un Cluster c’est un ensemble de Virtual Machines (VM) qui communiquent entres elles, il est applicable à un projet de grande ampleur (E-Commerce ; Amazon ) mais on ne l’utilise pas ou très rarement dans les petits projets. Lorsque nous sommes dans un contexte Big Data, le Cluster est évidemment indispensable au projet.

Concrètement, quelle fut ta mission principale durant ces deux années ?

Au sein de mon équipe, nous récupérions un premier message généré par l’écran, ne contenant uniquement que des identifiants, que nous allions enrichir avec d’autres sources de données pour faire de la Data Viz. Ce qui aura comme résultat de pouvoir visualiser en plus des identifiants du player de la campagne : le nom du client, de la campagne, les dates précises d’affichages ainsi que l’ensemble des informations que le Data Scientist aura jugé pertinent lors de la réalisation de sa Data Viz ou de son projet Data Science.

Quels sont les liens et les différences entre ces deux métiers ?

Il y a un lien existant très fort entre le métier de Data Scientist et celui de Data Ingénieur. Les données avec lesquelles va travailler le Data Scientist sont arrangées, enrichies, stockées par le Data Ingénieur, il existe donc une forme de dépendance entre ces métiers. Le Data Ingénieur n’a pas vraiment besoin du Data Scientist puisque son travail s’arrête là où celui du Data Scientist commence.

Le Data Scientist utilise plutôt des données qui sont déjà prêtes pour faire par exemple du Machine Learning, de la Data Viz ou bien de l’analyse de données.
Le Data Ingénieur va travailler les données, il va essayer de les collecter sur différentes sources, de les arranger, de les joindre, de les enrichir et de les mettre au propre.

Pourrais-tu nous expliquer le déroulement d’un projet Big Data ?

Le Big Data est un terme très vaste, certains vont l’associer à l’ingénierie, d’autres l’associent aux technologies Big Data de traitement de données en masse. Ce terme renvoie à tout et n’importe quoi. (rires)

Un projet data débute par l’étude et la réalisation par un Data Architecte de la mise en place des composants nécessaire à l’équipe de Data Ingénieurs. Ensuite, cette équipe récolte les données stockées dans des anciennes bases type ; Oracle, SQL vers des interface Big Data. Ensuite il agrége, arrange, enrichi toutes ces données pour les mettre à disposition des Data Scientist afin de créer de la Data Viz ou simplement ranger ces données au sein d’un Data Lake afin de les mettre à disposition des autres équipes.

Quels langages utilises-tu lors de tes missions ?

Nous utilisons du Scala lorsqu’il s’agit de faire des applications Spark. Lorsqu’il s’agit de Kafka (Kstream) alors nous préférerons utiliser du Java. En Data Science nous utilisons plutôt du Python car la bibliothèque libre de Machine Learning « Scikit-learn » a été créée sous Python, bien sûr on peut l’utiliser dans d’autres langages mais Python reste le plus simple à utiliser pour la partie Data Science.

Utilises-tu les mêmes langages en tant que Data Scientist qu’en tant que Data Ingénieur ?

Cela dépend, étant donné que j’ai une licence en informatique je n’ai pas de souci à choisir de langage, je le fais avec les deux, si je vois un exemple sur Internet écrit en Java et que son utilisation est plus simple alors je le réutilise et je l’adapte au projet.

Est-ce que tu as rencontré des difficultés en étant Data Ingénieur ?

Ce n’était pas compliqué de devenir Data Ingénieur, il suffisait de comprendre la logique inhérente à ce métier. Il est toujours difficile de travailler sur une nouvelle base encore peu connue lorsque vous avez toujours travaillez sur une base très bien connue, l’intérêt est donc de toujours devoir creuser les erreurs et difficultés rencontrées afin de s’améliorer et s’auto-former en permanence. Ce n’est pas le codage qui posait problème mais plutôt les composants Big Data qui, à l’époque, étaient encore peu connus. Une fois que nous avions compris la logique et le comportement entre les différents services du même composant, nous réussissions à résoudre les problèmes. Quand on traite beaucoup de données, ce n’est pas comme d’autres projets où nous faisions une recette et nous testions si l’outil fonctionne. Si une faute était commise ce n’est qu’à la fin du process que nous pouvions nous en apercevoir.

Quelle est ta définition de l’IA (Intelligence Artificielle) ?

Lorsque des personnes parlent d’IA, ils pensent aux Machines Learning, à un réseau de neurones, au Deep Learning alors que ce n’est pas que cela. Il y a aussi les anciens algorithmes et les anciennes méthodes statistiques qui ont fait leurs preuves et qui fonctionnent. L’IA regroupe donc aussi les anciennes méthodes, algorithmes et les nouvelles méthodes telles que le Deep Learning qui se sont répandues dû à l’augmentation continue de la volumétrie de données nécessaires à l’apprentissage d’un réseau.

As-tu déjà travaillé sur la création d’une IA faible ?

Dans mes précédentes expériences, je me devais d’essayer de créer un réseau de neurones profond pour faire de la prédiction chez un client. Nous essayions de prédire les ventes de certains produits pour pouvoir faire de la gestion de stock.

Quelles sont tes perspectives d’avenir ?

Prochainement je vais intégrer une mission dans laquelle je vais pouvoir lier le métier de Data Scientist et de Data Ingénieur. Je vais même pouvoir industrialiser les algorithmes de Machine Learning pour répondre au manque de résultats actuels de la part des Data Scientist dans ce domaine. L’objectif est d’incorporer ces algorithmes sur le cloud tout en assurant leurs bon fonctionnement derrière une application.

Par la suite j’ai pour ambition de devenir architecte Data et ainsi pouvoir travailler sur le cloud, en devenant architecte AWS, AZURE…