DEVENIR DATA SCIENTIST SANS DIPLÔME D’INGÉNIEUR : L’EXPÉRIENCE PAR LES PROJETS

Antoine Krajnc
Jedha
Published in
6 min readOct 8, 2018

--

Beaucoup de nos élèves se posent la question : “je n’ai pas de diplôme d’ingénieur, est ce que je peux vraiment devenir data scientist ou au moins entamer une carrière dans la data ?”. La réponse est oui. Même si un tel diplôme aide, il n’est pas nécessaire d’avoir un master en ingénierie ou en statistiques pour devenir Data Scientist.

Un des meilleurs moyens d’obtenir un job est d’avoir de l’expérience. Et, de l’expérience, cela s’acquiert par des projets. C’est ce que nous voudrions développer dans cet article.

POURQUOI AVOIR UN PORTFOLIO DE PROJETS ?

Avoir un portfolio de projet montre que vous avez de l’expérience. Imaginez que deux Data Scientists Junior arrivent devant un recruteur, le premier dit : “Je connais Python, le Machine Learning, la gestion de base de données”, le second dit “Je connais Python, le Machine Learning et la gestion de base de données et d’ailleurs j’ai appliqué ces connaissances dans ce projet où j’ai pu appliquer un réseau de neurones sur des données collectées en Open Data sur ce site.” A votre avis, sur quel candidat le recruteur va-t-il s’attarder le plus ?

Certes, pendant un entretien les profils ne sont pas à des extrêmes aussi flagrants. Mais, dans tous les cas, vous pouvez mettre en valeur des expériences beaucoup plus facilement via votre portfolio et peser dans la balance, même face à des personnes qui ont plus d’expérience en entreprise.

Ceci est d’autant plus vrai si les projets menés sont en lien avec l’industrie dans laquelle l’entreprise se trouve. Par exemple, si vous postulez pour une banque et que vous avez travaillé sur un projet de fraude bancaire en Machine Learning, cela va surement plus intéresser le recruteur. Cela prouve que vous vous intéressez aux problématiques auxquelles l’entreprise peut faire face mais aussi que vous avez une certaine connaissance métier.

Les projets assoient aussi votre légitimité en tant que Data Scientist car, plus vous avez un portfolio varié, plus vous avez fait face à des problématiques différentes et que, par conséquent, vous êtes capable de vous adapter. Ce qui est une capacité recherchée, pas seulement en Data Science.

COMMENT SE CRÉER UN PORTFOLIO ?

TROUVER UN PROJET QUI VOUS INTÉRESSE

Se créer un portfolio n’est pas chose facile mais ce n’est pas insurmontable non plus. Le meilleur moyen de commencer est de trouver quelque chose qui vous intéresse. Nous avons par exemple des élèves qui aiment beaucoup la crypto-monnaie et qui ont décidé de travailler sur le sujet. D’autres ont préféré le thème de l’écologie ou encore des ressources humaines. Les sujets sont vastes, le tout est d’en trouver un qui vous intéressera assez pour que vous l’acheviez malgré les difficultés potentielles.

OÙ TROUVER LES DONNÉES

Une question que l’on pose souvent est : “Où est ce qu’on peut trouver des données pertinentes pour mon projet ? ” Il existe à cette fin des ressources plus ou moins fiables sur lesquelles se reposer.

L’OPEN DATA

Beaucoup d’entreprises mettent leurs données à disposition pour les personnes curieuses de les analyser. Les gouvernements et les universités sont d’ailleurs souvent les premiers à le faire. Voici une liste que vous pouvez commencer à regarder :

https://opendata.paris.fr/explore/?sort=modified

https://www.data.gouv.fr/fr/

https://www.enigma.com/

https://snap.stanford.edu/data/index.html

https://opendata.cityofnewyork.us/

Ou alors si vous souhaitez regarder directement sur un portail Open Data

https://www.opendatasoft.fr/ressource-liste-portails-open-data-dans-le-monde/

Avant de tarir ces sources de données, vous aurez de quoi achever plusieurs projets.

KAGGLE

Kaggle est une plateforme de Machine Learning où les Data Scientists du monde entier viennent analyser les données qui sont mises à disposition. De fait, il y a beaucoup de bases de données accessibles pour ceux qui souhaitent mettre en place leurs algorithmes. L’avantage de cette plateforme, c’est que les données sont relativement bien structurées et nettoyées. C’est donc un très bon endroit pour commencer lorsque l’on débute.

LES ERREURS À NE PAS COMMETTRE

PRENDRE DES DATASETS TROP COMMUNS

Même si avoir des projets va vous servir, il faut savoir cibler. Certains projets sont en effet tellement vus et revus qu’il est préférable de ne pas les mettre dans votre portfolio. Parmi eux :

Le titanic

– La base de données Iris

Ces deux bases de données sont très bien pour commencer à faire vos armes, mais rien ne sert de les ajouter dans votre portfolio comme un projet personnel. Les personnes qui vont regarder votre portfolio vont, au mieux, penser que votre profil est très junior.

NE PAS AMÉLIORER VOS PROJETS

Une autre erreur est de penser que vous ne pouvez pas améliorer vos projets une fois que vous les avez terminés. L’élaboration d’un projet est un processus itératif, il est très bien de revenir dessus et de les améliorer en permanence. Par exemple, il est tout à fait possible que vous ayez appliqué un algorithme X ou que vous ayez nettoyé vos données d’une manière X, et que vous décidiez de changer de méthode pour améliorer les performances de votre modèle. Vous pouvez alors tout à fait créer une nouvelle partie dans votre projet et exposer vos trouvailles.

COMMUNIQUER SUR VOS PROJETS

Faire des projets, c’est bien mais que les autres puissent le voir, c’est mieux. C’est pour cela qu’il est bon de communiquer sur vos projets, et faire en sorte qu’ils soient visibles aux yeux du plus grand nombre.

LES RÉSEAUX SOCIAUX

Un moyen efficace de relayer vos projets est d’utiliser les réseaux sociaux. Créez vous un compte Github et Kaggle et commencer à poster vos projets là dessus.

Dans Github, il est important que chacun de vos projets comporte un fichier README.md que vos utilisateurs puissent facilement lire. C’est souvent une chose qui est oublié parmi les codeurs et qui est pourtant cruciale. Si vous n’avez pas de README.md, il est beaucoup plus difficile pour le lecteur de comprendre le sujet du projet.

Voici le guide officiel de Github pour ceux qui commencent dans ce domaine : https://guides.github.com/activities/hello-world/

Kaggle fonctionne de la même manière. Il faudra avoir un kernel qui explique dans le détail les tenants et aboutissants de votre projet pour que cela puisse être intelligible pour le plus grand nombre.

Vous pouvez aussi utiliser LinkedIn et publier votre projet sous forme d’article. C’est un très bon moyen de gagner en visibilité car tous vos contacts et toutes les personnes qui visitent votre profil vont pouvoir lire les articles que vous avez écrit.

BLOG

Avoir un blog ou un site personnel est aussi très bien pour centraliser vos projets. D’autant plus qu’il est très facile de mettre en place un site web sans dépenser un budget énorme. Wordpress est un très bon début, ou vous pouvez même utiliser d’autres CMS comme Strikingly ou Wix qui feront très bien l’affaire.

Si vous vous amusez à améliorer votre SEO, vous pourrez même apparaître assez haut dans les recherches Google.

En plus de votre blog personnel, il y a des plateformes de blogging comme Medium ou Quora que vous pouvez utiliser pour publier vos articles de blog.

AJOUTEZ VOS PROJETS À VOS CV

Vous pouvez tout à fait valoriser vos projets sur votre CV comme une expérience ou dans une section “projet”. C’est une très bonne façon d’attirer l’oeil d’un recruteur et de pouvoir ensuite diriger la conversation pour que vous puissiez développer.

Avoir des projets sur lesquels vous avez travaillé est ce qui va vous différencier d’un Data Scientist lambda, passez donc du temps à les peaufiner car c’est ce qui va vous permettre de vous créer de belles opportunités. N’hésitez pas à poser vos questions ou vos remarques en commentaires de l’article !

Si vous êtes intéressé à l’idée d’apprendre les Data Sciences, regardez notre Bootcamp : Jedha.co

--

--

Antoine Krajnc
Jedha

Founder @ Jedha Bootcamp - Data Analysis, Data Science & Data Engineering School