My Data Journey: Conclusion et rétrospective
Ce premier MOOC du MIT 15.071x — The Analytics Edge se termine. Cela a duré un peu plus d’un mois pour avoir un aperçu et des cas concrets de la Data et des Analytics (oui, car je faisais en moyenne 2 semaines de Mooc par semaine, ce qui explique pourquoi cela ne m’a pas nécessité 9 semaines).
Dans ce post, je vais revenir sur les notions abordées dans le MOOC et notamment donner mon avis sur ses points forts et ses points faibles (selon moi, et donc en toute modestie et avec un regard de débutant).

Unit 1 — Introduction to Analytics
La première unité a permis de prendre en main les outils (et notamment le langage R) nécessaires pour la suite du MOOC. Cette partie ne s’attarde pas sur la prédiction ou l’analyse approfondie, mais bien sur l’observation et la compréhension des données. L’objectif est de faire parler les données, qu’elles nous racontent leur histoire.
Unit 2 — Linear Regression
La deuxième unité nous a plongé dans notre premier modèle de machine learning : la régression linéaire. Il nous est présenté progressivement à l’aide d’exemples concrets, notamment celui pour prédire le prix du vin en fonction de ses caractéristiques. Bien évidemment, c’est une tornade de vocabulaire et de notions qui s’abat (en anglais): dependent variables, independant variable, résidus, SSE, RMSE, R², overfitting, multicollinearity, training test vs testing test… Après cette unité, j’avais l’impression que je pouvais tout prédire, que j’avais acquis de nouveaux super pouvoirs (même si je mélangeais encore le vocabulaire) !
Unit 3 — Logistic Regression
Dans cette unité, nous avons abordé le cas d’un modèle de classification : prédire si l’observation est valide ou pas, rejetée ou pas, élu ou pas … Le lien avec les deux unités est clair et nous sentions bien que toutes les notions vues précédemment sont réutilisées. Plusieurs points essentiels sont vus : la threshold value, la confusion matrix, et la ROC Curve.
Unit 4 — Trees
Un incontournable du machine learning est le Decision Tree ou Classification And Regression Trees. De manière toujours très pédagogique, nous avons plongé dans ce modèle pour ensuite étudier les Random Forests et la k-fold Cross Validation.
Unit 5 — Text Analytics
Pour cette unité, nous avons changé de registre afin d’aborder le Natural Langage Processing. Avec un modèle relativement simple et des approximations acceptables pour l’étude des tweets d’Apple (Text mining, Bag of Words, stemming, stop words…) nous arrivions tout de même àdes résultats très prometteurs ! Un autre bon point pour cette unité est la confrontation des modèles entre eux. Par exemple, malgré une efficacité accrue avec le Random Forest dans un des sujets, nous conservons le modèle CART, aux performances proches (même si en deçà), pour pouvoir l’interpréter et l’expliquer beaucoup plus facilement.
Unit 6 — Clustering
L’introduction de cette unité était super intéressante car elle explique le concours à 1 million de dollars organisé par Netflix pour battre son algorithme de recommandation. Ici, nous étudions le Content Filtering, le Collaborative Filtering ainsi que deux méthodes de clustering (répartir les données en plusieurs clusters) : hierarchical clustering et k-means clustering.
Unit 7 — Visualization
J’ai personnellement moins apprécié cette unité. Je pense qu’elle n’était pas assez rythmée et qu’elle passait trop de temps sur les commandes R. Même si les concepts restent pertinents pour construire une visualisation qui a du sens, je me suis un peu ennuyé. Néanmoins, la dernière partie aborde les mauvaises visualisations et le risque de tordre les graphiques pour leur faire dire ce nous souhaitons (et pas ce qu’elles représentent).
Unit 8 — Linear Optimization
OUF ! LOCO ! C’est la manière dont je résumerais cette unité. En terminant cette unité, j’avais la même impression que lors de la 2ème sur le premier modèle de régression linéaire : le sentiment de pouvoir tout prédire et tout modéliser dans des tableurs ! Je me suis senti envahi par des pouvoirs, prêts à tout formaliser dans des cellules Excel ! Les cas d’études étaient vraiment intéressants et très variés. Cela m’a permis de voir l’étendue des possibles avec cette méthode.
Unit 9 — Integer Optimization
Cette unité a été la suite de la précédente. Pas de changement fort, simplement plus d’études de cas : mise en place de planning, d’effectifs de classe et même le choix de lieu pour investir dans les hôtels ! Je m’attendais à quelque chose de plus fracassant pour cette dernière unité, surtout après la précédente qui m’a mis plein d’étoiles dans les yeux.
Final Exam
J’avais peur de rester sur ma faim, mais heureusement le MOOC avait quelques surprises : 4 études de cas un peu plus longues et beaucoup moins guidées que celles vues dans les unités. Cela a permis de revenir sur les outils abordés au début et de les consolider.
C’est fini ? Yes ! Objectif atteint !

Conclusion de la conclusion
Dès le début, nous sommes plongés dans le bain : nous récupérons des données, nous les observons et nous choisissons dans quelle direction nous nous dirigeons. Chaque sujet abordé est expliqué théoriquement (mais pas trop) puis mis en application pratique directement.
Les cours sont très bien construits :
- 2 Lectures : introduites par de la théorie (mais très proche d’un cas concret, comme le concours de Netflix). Puis un exemple est réalisé par les professeurs, inter-coupés de QCM pour marquer les idées essentielles.
- 1 Recitation : un exemple de bout en bout pour reprendre les concepts abordés et aller un peu plus loin avant les devoirs personnels.
- 3 Assignments : ou travaux personnels. Ici, nous sommes tout seul face à notre écran. Un problème est posé et nous devons répondre aux différentes questions.
En conclusion de chaque unité, un rappel est fait pour mettre en évidence The Analytics Edge des outils découverts dans l’unité.
Les cas d’étude sont très variés et extrêmement intéressants car très concrets. Nous avons analysé des cours de bourses, les prix des maisons de Boston, la prédiction de maladie du coeur, classifier des films pour des utilisateurs, la pertinence de sous-traiter ses lignes de production de laine …
J’ai vraiment senti la progression tout au long du Mooc. En tant qu’étudiant, c’est très valorisant de se rendre compte que le savoir grandit et que notre esprit d’analyse se peaufine.

Même si le détail (au sens mathématique) des modèles n’est que trop peu abordé, j’ai vraiment progressé en R (en même temps, je partais de zéro) et j’ai pu appliquer mes premiers modèles très rapidement (même si cela restait un peu trop “magique” à mon sens).
Un MUST DO
Le Mooc MIT 15.071x The Analytics Edge est un Mooc que je vous conseille grandement. Si vous débutez dans ce domaine, que vous voulez en savoir plus et mettre les mains dans le cambouis, vous ne serez pas déçus. Néanmoins, pour tous les détails qui se cachent sous les modèles, vous ne serez pas forcément très avancés (ce qui n’est pas plus mal si vous n’êtes pas très matheux à la base).
Un must-do pour quiconque veut se lancer dans la Data !

Pour combler ce manque, je me suis lancé dans un autre Mooc : Machine Learning sur Coursera par Andrew Ng. Andrew est l’ancien CTO de Baidu, à l’origine de Google Brain (la partie intelligence artificielle de Google), professeur à Stanford et cofondateur de Coursera. Bref, le mec ne s’ennuie pas ! Dans ce Mooc, chaque modèle est décortiqué en détails, et notamment la manière dont les différents coefficients et paramètres sont calculés.

Je vous dis donc à bientôt pour le deuxième chapitre de My Data Journey ;)
La bise,
Maxime

