Digital Week 2018 - Salon Data à Nantes

Guillaume Renaudin
maytheforce.bewizyu
9 min readOct 15, 2018

--

Mercredi 12 Septembre 2018, avait lieu le 2e épisode du Salon Data à Nantes et bien sûr, Bewizyu a répondu présent !

Cet évènement organisé dans le cadre de la Nantes Digital Week, permet de regrouper professionnels et particuliers passionnés de Data et grâce à un savant mélange de conférences, stands et démos, donne une vision de l’actualité et des tendances évolutives dans ce vaste domaine.

D’abord un grand merci à Aline Deschamps et Thomas Fournaise les 2 principaux organisateurs de cet évènement accompagnés et soutenus par l’IGN et Wavestone. Notons au passage la singulière particularité de cette conférence : elle est gratuite pour les spectateurs ! Donc merci aussi aux différents sponsors qui supportent la logistique et les coûts matériels.

3 conférences, suivies le jour même, nous ont interpellés…

Data Storytelling et pilotage opérationnel, retour d’expérience SNCF Gares & Connexions

Cette conférence, nous intéressait pour 2 raisons :

  1. Nous avons compris que notre époque n’est que le début de notre histoire, de notre rapport à la donnée dématérialisée et qu’il est nécessaire de savoir présenter et vulgariser sa complexité. Une approche data storytelling permet de rapidement et simplement immerger un public dans cet univers très abstrait. Les codes et pratiques qui se cachent derrière le storytelling permettent de comprendre et retenir les spécificités d’un projet, d’une organisation, d’une équipe. Cela participe aussi à l’enrichissement de l’expérience des spectateurs.
  2. Le passage d’un projet Data, avec une histoire assez récente et souvent peu de temps d’existence, vers un déploiement et une mise en condition opérationnelle est encore assez rare ou assez peu documenté. Nous profitons de l’opportunité d’apprendre qui nous est donnée.

3 intervenants nous présentent les travaux conjoints de SNCF Gares & Connexions, Talan Solutions et Toucan Toco. Le premier agissant en qualité de client (MOA et MOE pour la partie SI), le second étant le prestataire réalisateur du projet technique et le dernier, éditeur de logiciel, propose une solution de data visualisation assez efficace et singulière.

Le but de ce projet est de mettre à disposition des managers de Gare, des KPIs facilement exploitables (avec un bon niveau d’abstraction mais également une base factuelle consultable) sur différents points clés d’une gare : satisfaction des voyageurs, fréquentations des boutiques, optimisation des flux de voyageurs en gare, fonctionnement et propreté des toilettes … Les données présentées peuvent être comparées entre les différents managers de Gare.

La culture chez Gares & Connexions n’est pas à la compétition mais plutôt à l’amélioration et l’entraide. Ainsi, proposer une vision de sa situation à ses pairs procure 2 avantages : elle met en avant les bonnes pratiques que l’on peut diffuser aux autres, elle permet également de trouver du soutien lorsque la situation n’est pas idéale.

L’histoire de ce projet aurait pu être assez banale; sa finalité aurait été de produire un tableau de bord proposant des indicateurs peu corrélés à la réalité rendant difficile l’interprétation nécessaire à la prise de décision et assez loin du besoin initial.

Mais l’histoire fut écrite autrement pour 2 raisons :

  1. Le travail d’évaluation de la pertinence et des sources de données a été réalisé par les MOA accompagnée des utilisateurs finaux. Ils ont donc été partie prenante dans la définition de ces indicateurs et leur mise en place progressive. Ils choisissent et adaptent leur organisation et outil de travail : une approche assez Lean !
  2. L’outil Toucan Toco propose des visualisations adaptées et travaillées avec en source différents travaux et observations réalisés dans le domaine des sciences cognitives. Il exclut, de facto, les représentations apportant peu de lisibilité et privilégie le jeu des formes, des couleurs et de la dynamique comme support de sens de la donnée.

3 mois après son lancement, le projet faillit s’arrêter en l’absence du pilote “métier” en charge du déploiement. Face à ce contretemps, le comité de pilotage allait prendre la décision d’arrêter le projet. Pendant ce temps, les managers de Gare sélectionnés pour la phase beta, échangeaient sur le réseau social de l’entreprise cherchant à montrer à leurs homologues qu’ils disposaient dorénavant d’un nouvel outil indispensable à leur travail quotidien et leur amélioration continue…

6 mois après le déploiement global sur les 3 000 Gares était réalisé entièrement et sans aucun effort de la part du comité de pilotage.

Dans toute histoire, il faut souvent une morale: un produit bien pensé, utilisable et fonctionnel sera utilisé parfois en dépit la volonté de ses créateurs. La data n’échappe pas à ce constat : tout produit doit être utile, utilisable et finalement utilisé !

Les 10 mauvaises façons de faire de l’intelligence artificielle

On avait jusque là l’habitude d’avoir des Top 10 des choses essentielles, les plus bénéfiques pour réussir un projet, dorénavant certain.e.s conférenci.er.ère.s comme Andreea Dumitrascu prennent le contrepied et préfèrent insister sur les causes d’échec.

A l’ère du fail fast, learn fast s’affranchir de la première étape est peut-être un luxe auquel il n’est pas nécessaire de renoncer.

L’idée de ce retour n’est pas de résumer la liste des 10 points abordés mais plutôt d’en retirer les détails qui permettent de rapidement comprendre à quel point, la réalité du domaine de l’intelligence artificielle est décorrélée des annonces grand public ou des croyances populaires :

  • Le premier point important est de comprendre que nous sommes encore très loin de HAL, la super intelligence du film 2001 L’odyssée de l’espace ou encore de Skynet et que malgré ce que dit Sophia, l’époque où les humains seront gouvernés (tués ?) par les machines semble encore largement plus venir de la science fiction que d’un futur possible. L’élément manquant ? En premier lieu, la capacité cognitive dont nous disposons nous, humains, et que l’on sait à peine expliquer aujourd’hui. Quant à la reproduire, on en est encore très loin ! Ne vous y fiez pas : les sentiments de Sophia semblent bien réels mais réussir à mimer des effets ne signifient pas que nous sommes capables d’en reproduire toutes les causes et par conséquent de prévoir toutes les nuances qui en découlent.
  • Ensuite, les domaines dans lesquels l’IA est plus performante qu’un humain ne sont pas ceux auxquels nous pensons instinctivement. Si on vous dit qu’une machine sera plus à même de reconnaitre une tumeur sur une radiographie qu’un sac à main sur une photo d’un site de e-commerce, vous y croyez ? Et pourtant c’est le cas ! Il y a, derrière cela, des raisons évidentes mais qui nous sont contre-intuitives : le second cas, nous parait, à nous humains, consommateurs occidentaux, bien plus évident à réaliser que le premier ! C’est parce que nous avons des heures, des jours, des mois, des années d’entrainement pour reconnaître un objet particulier aussi bien sur une photo mais aussi dans un univers 3D complexe. Si nous passions autant de notre vie à essayer de reconnaitre une tumeur sur une radiographie, nous serions probablement aussi bon que nos intelligences artificielles actuelles. Une autre justification est dans la complexité du support, de l’environnement. Une radiographie est très normée (en taille, en orientation, en couleur, etc.) et donc détecter une anomalie ou un pattern visuel particulier (ce qui permet de suspecter la présence d’une tumeur) est bien plus simple que dans un univers où les positions d’objet et leur environnement sont très variables.
  • Un autre point important est de ne pas négliger la complexité à laquelle nous sommes parvenus en termes de modélisation mathématique des phénomènes visuels, sensoriels et intellectuels. Aujourd’hui, nous savons qu’un développeur manipule énormément de couches technologiques complexes; dans l’IT, nous en prenons tous conscience jusqu’aux strates managériales même si des progrès peuvent encore être faits sur ce point. Sa compétence est reconnue mais les limites de sa polyvalence moins. Ainsi, il n’est pas possible de demander à un développeur de savoir, seul, manipuler les concepts mathématiques, les modèles probabilistes et statistiques à la base du machine learning. Il est nécessaire de faire appel à des Data scientists pour cela. Et inversement, ce Data scientist sera capable d’écrire des scripts de nettoyage, d’exploitation de la donnée et de création des modèles, mais ne sera pas capable de l’industrialiser et de l’intégrer dans une chaîne logicielle complète.

Pour finir cet extrait, la phrase la plus significative du talk d’Andreea est :

L’IA est une technologie et non un objectif !

It rains cats and dogs : Corrélation ou causalité ?

17h15, les dernières conférences débutent. La fin de la journée se fait sentir, les salles sont partiellement remplies, une grande majorité de visiteurs a déserté et pourtant… ils auraient dû rester ! Car nous avons assisté avec Emmanuel Keita àl’une des conférence les plus éclairantes de ce salon pour l’avenir de l’intelligence artificielle et de son utilisation au quotidien.

Le titre de la conférence “It’s raining cats and dogs” sous-entend subtilement le fil conducteur de l’heure qui va suivre : nous allons confronter corrélation et causalité.

L’origine de cette expression anglaise reste discutée. Mais les deux principales explications remontent au 15e et 16e siècle. La première est que la pluie serait la cause de la chute des animaux, fuyant les combles dans lesquelles ils dorment à la nuit tombée. L’autre réside dans la présence de nombreuses carcasses d’animaux dans les rues des villes d’Angleterre au 16e siècle (les déchets étaient alors jetés à même la rue). Elle était liée à la pluie qui créait des amoncellements par un mauvais drainage. La présence des corps n’étaient pas causés par la pluie mais leur visibilité aux différents points de rétention était corrélée à ce phénomène météorologique.

Rapidement, Emmanuel nous place devant une étrange mais néanmoins implacable vérité : les usages de l’IA à l’heure actuelle se limitent généralement à la prédiction mais nos méthodes et outils ne permettent pas d’expliquer ou d’étudier les causes et donc de mieux comprendre le monde qui nous entoure. Etre capable de connaître la cause d’une défaillance dans un problème complexe permettrait non seulement de l’anticiper mais surtout de le régler. En développement logiciel nous avons l’habitude de dire que plus une anomalie survient tard et plus elle sera dure et couteuse à corriger. Il parait évident que ce constat peut être généralisé à tous les domaines.

Et là, on rentre dans le dur : la définition de corrélation, causalité et le fait que l’un n’implique pas l’autre ! Plusieurs exemples, tous aussi étonnants les uns que les autres, mettent en lumière ce que l’on appelle les facteurs de confusion qui nous entrainent à avoir des raisonnements erronés lorsqu’il s’agit de prendre certaines décisions sur la base de statistiques.

Nous ne pouvons que vous recommander l’excellente vidéo de Lê Nguyên Hoang de la chaîne Youtube Science4All à ce sujet !

Et c’est à ce niveau qu’émerge un pan entier des statistiques que nous n’avons pas ou peu l’habitude d’utiliser jusque là en IA mais qui donne des résultats statistiques remarquables surtout lorsque les échantillons de données sont faibles. Il s’agit de la statistique Bayésienne (issue du théorème de Thomas Bayes) qui s’oppose assez naturellement aux statistiques classiques (fréquentistes) et qui repose sur un principe d’inférence des causes: on calcule la probabilité d’une cause à partir des conséquences observées et ainsi on est capable de conserver les causes les plus pertinentes dans notre modèle.

Nous ne rentrerons pas plus dans les détails car la démonstration de son efficacité est en fait bien plus argumentée et étayée que cela mais vous avez les concepts essentiels.

Ce qui est remarquable dans cette approche, c’est qu’en plus de pouvoir être outillée et automatisée (notamment dans la découverte des causes possibles) par des algorithmes de Machine Learning, elle est également un support indispensable aux réseaux de neurones plus traditionnels. Car les réseaux de neurones bayésiens ont cette faculté d’expliciter les causes d’un effet observé. Par conséquent, on peut également prédire une situation future basée sur des observations passées en expliquant les variables les plus influentes. Et c’est là qu’est tout l’enjeu de cette méthode : Elle redonne confiance aux utilisateurs d’intelligence artificielle en sortant les DNN (Deep Neural Network) du carcan “Boite noire” et en offrant une vision explicative plus rassurante.

Les vidéos des différentes conférences ou interview de professionnels du secteur commencent à être mise en ligne sur la chaine youtube “Salon Data”, alors n’hésitez pas à y faire un tour, les vidéos de l’année précédente y sont déjà accessibles.

Une dernière chose, cette année le thème récurrent sur le salon était bien sûr la RGPD, son impact sur nos métiers, nos droits et obligations tout cela expliqué et documenté par un intervenant de la CNIL. Bien que ce sujet soit également primordial à nos yeux, nous nous réservons le droit de l’évoquer dans un prochain billet de ce blog qui traitera de données personnelles, du concept de Privacy by Design mêlant une utilisation possible de la blockchain car nous sommes persuadés que l’avenir de ce sujet réside dans ce formidable outil technologique !

“Remember — BEWIZYU, always”…

--

--

Guillaume Renaudin
maytheforce.bewizyu

Technical expert in Data & Cloud with special skills in IA