J’ai une idée, virez vos datascientists

Vous croyez peut-être que je vais vous parler d’auto-ml (machine learning automatique, cf. MLbox, Datarobot, h2o driverless, …). Et bien non. Je voudrais évoquer une technologie encore plus simple, et sans doute encore plus performante. Par contre, elle mérite encore quelques ajustements…

A quoi servent les datascientists

Avant d’évoquer une solution, j’aimerais parler un peu du problème…

Ce qu’on fait

En marketing, beaucoup de datascientists s’attaquent au mêmes problèmes : prédire le comportement du client, et identifier comment l’influencer pour gagner plus d’argent (pour cela, lui proposer les bonnes offres, personnaliser les services, et anticiper les irritants). Ils créent donc des modèles prédictifs de l’appétence au produit P, au canal C, ou encore du risque d’attrition.

Evidemment, ces modèles sont basés sur les données (1) connues (2) du passé. Ainsi, à la SNCF, on utilise vos anciens trajets. Chez Dailymotion, vos playlists. Chez Orange, vos factures et appels. Et ainsi de suite.

Et puis, chacun de ces acteurs vous demande aussi quelques infos de base : nom, prénom, adresse, date de naissance, nombre d’enfants, … Ces quelques données constituent leur base de connaissance commune (enfin, séparées, mais en théorie identiques).

Les résultats

Et ça marche.

Un jeune homme content, probablement un datascientist qui fait du marketing

Les résultats sont même incroyables. Cibler les bons clients, avec les bonnes offres, rapporte des millions. On peut ainsi fidéliser, faire monter en gamme, et même vous faire découvrir des offres (ou des chansons, chez Spotify).

Je ne crois pas qu’on dispose de chiffres consolidés sur l’impact mondial, mais on peut mesurer la demande des entreprises en datascentists. Il s’en forme et embauche des milliers chaque année, et les salaires grimpent. Par exemple, voir cette analyse des chiffres du marché.

Le paradoxe de l’innovation

Bref, tout va bien.

Oui, mais, quand même. Comment ça se fait qu’on crée autant d’emplois identiques, alors qu’on nous avait promis que l’Intelligence Artificielle (et c’en est) allait mettre tout le monde au chômage, générant ainsi des économies incroyables ?

J’aime bien, quand je réfléchis à l’I.A., me dire la chose suivante : à l’avenir, l’homme sera exclusivement créatif, si bien qu’on n’aura jamais 2 personnes qui font le même job, ni même une personne qui fait “n” fois la même chose.

Evidemment, c’est plus délicat que ça, car développer une I.A. a un coût (encore aujourd’hui), si bien que les économies d’échelle apparaissent avec plusieurs personnes concernées. Mais quand même : des milliers de datascientists qui font la même chose dans le monde, c’est beaucoup !

Est-ce que l’I.A. n’est pas en train de faire le contraire de ce qu’elle avait promis ? N’est-elle pas en train de remplacer des jobs identiques par des jobs identiques, mais cette fois en tant que datascientist ?

Deux options

On va donc voir si on peut se passer d’une partie de ces datascientists. Ou, de façon plus réalistes, leur éviter de faire tout le temps la même chose et les laisser se concentrer sur des tâches plus créatives et utiles.

Option 1 : l’Auto-ML

J’avais dit que je n’en parlerais pas. Je vais donc faire court.

Il s’agit d’un logiciel capable d’entraîner des modèles prédictifs à la place du datascientist. C’est génial, vous devriez vraiment creuser le sujet. Cependant, ces logiciels ne remplissent que le rôle de “model-fitting”, qui représente peut-être 20% du temps (seulement) d’un datascientist.

Le reste, soit 80% du temps, c’est choisir un “problem worth solving”, définir une variable à prédire (avec des experts en marketing), co-construire la mise en oeuvre finale (avant de coder), préparer des données, tester ses modèles, automatiser leur ré-entrainement, quantifier leur impact, négocier son salaire, et enfin comprendre que le problème aurait pu être posé autrement dès le début, ce qui déclenche un nouveau projet qui rapportera encore plus etc…

Je vous propose donc de passer à une technologie plus prometteuse.

Option 2 : demander aux gens (je ne plaisante pas)

Souvenez-vous : notre technologie géniale doit prédire le comportement des clients, et permettre d’optimiser nos services en personnalisant au maximum la relation client afin d’influencer le client.

Pour cela, je vous propose… de demander aux gens.

Sérieusement. Pourquoi investir 200k€ sur un projet pour prédire si vos clients ont eu un enfant ? Pendant ce temps, vos crosscurrents, mais aussi tout un tas d’entreprises d’autres secteurs, font de même. La SNCF verra que Mr Dupont voyage moins, Dailymotion qu’il se lève à 3h du mat, et Orange qu’il appelle de nouveaux numéros que d’autres parents appellent (des crèches, des écoles ?). On est sûrs que c’est le plus efficace ?

Pourquoi ne pas demander à Mr Dupont ?

Mais, vous allez me dire, parce que Dupont ne peut pas répondre à la SNCF, Dailymotion, Spotify, Orange et tout le CAC40. Il n’a pas que ça à faire que de répondre à des enquêtes. Ah, bon, au temps pour moi.

Option 3 : demander aux gens, correctement

Quoi que, attendez. Et si Dupont répondait à une seule enquête, et plaçait ces données dans un endroit unique, en gérant les accès qu’il donne (ou pas) aux différents acteurs ? Après tout, ce sont SES données, donc c’est normal qu’il puisse les gérer.

Petit point protection des données personnelles

Petite pause dans l’explication pour dire un truc important. Les données du client lui appartiennent. D’ailleurs, il a le droit de demander à l’entreprise de les lui fournir, et de les détruire. Il sera également, à partir de Mai 2018, chargé de choisir si telle ou telle finalité de traitement de données lui semble légitime. Et il peut refuser.

Pour gérer tout ça, chaque grande entreprise développe des interfaces (sites web, apps, …) permettant aux clients de gérer les données qu’ils fournissent et les finalités consenties. Encore autant de projets, mais cette fois à 2M€ au lieu de 200 k€. Chic.

Mais, pourquoi ne pas avoir un seul dépôt, géré par le client, ce qui permettrait de mutualiser les coûts du dépôt mais aussi les efforts du client ?

Mutualiser les données

Parce que, honnêtement, ça ne me dérange pas (et vous?) que ma banque connaissent mes relevés EDF ou mes voyages SNCF, ni même ma playlist Dailymotion. D’ailleurs, si ça leur évite de me proposer des produits donc je n’ai pas besoin, ça me semble être un bon deal.

Or, avec autant de données, elle y arriverait certainement. Prédire est d’autant plus simple qu’on a une bonne connaissance des clients, ce qui se traduit par une grande variété de données.

Un socle de questions communes

Evidemment, chaque acteur ne peut pas demander à chaque client, et pour chacun de ses produits, s’il est intéressé. Cela ferait des milliers de questions par client.

En revanche, on peut imaginer quelques questions de base :

  • Quelle est votre adresse ? Pensez-vous déménager dans l’année ?
  • Combien d’enfants avez-vous ? Ce nombre va-t-il augmenter ?
  • Quelle est votre profession ? Pensez-vous en changer dans l’année ?

Et finalement, avec 15 questions, on peut virer une bonne 10aine de datascientists dans chaque boîte du CAC40 tout en augmentant considérablement la connaissance client des différents acteurs. Boum !

Qui possède la plateforme ?

Oui, c’est une bonne question. Quelqu’un doit bien posséder la plateforme, et celui-ci aura beaucoup de pouvoir. Mieux vaut réfléchir…

Qui est légitime ?

  • Quelqu’un auquel le client fait confiance (au point d’héberger toutes ses données sur son outil)
  • Quelqu’un qui ne tirera pas profit de la situation
  • Quelqu’un qui parviendra à supporter une telle infrastructure

La seule organisation pseudo-légitime serait donc un état, quoi que certains aient démontré un certain talent pour s’en prendre à leurs citoyens. Et puis, de toute façon, une telle plateforme ne devrait-elle pas être internationale ?

La banque constitue une piste, également. Internationale, digne de confiance, compétente dans la gestion de données. Cependant, son intérêt pour les données médicales des clients risque de poser problème. Je me vois mal faire transiter mes informations de santé par ma banque… Il y a donc un point à craquer…

Autre option : trouver un tiers neutre et sans frontière. Est-ce que ça existe ? Et si c’était une variante de la blockchain ?

Conclusion

Les solutions les plus simples sont parfois les meilleures.

L’effort consenti par toutes les entreprises pour collecter, stocker, gérer et analyser les données client est colossal et croit rapidement. Dans le même temps, l’immense rentabilité de ce travail nous aveugle sur son absurdité.

  • Nos organisations sont maintenant suffisamment matures pour imaginer une gestion plus raisonnable des données client (comprendre : ça leur coûte cher).
  • Dans le même temps, la réglementation (GDPR) protectrice nous incite à remettre le client au centre de la gestion de son actif le plus prisé.
  • Enfin, on dispose de technologies neutres et sûres capables de stocker cet actif et d’en gérer la distribution (dont les droits d’accès).

La création d’un dépôt unique me semble donc nécessaire, utile et inévitable. Peut-être qu’il est temps de s’y pencher, et de parler du comment ? Faut-il rejoindre une initiative existante, ou partir d’une feuille blanche entre grandes entreprises ?

Vous voulez reprendre le contrôle de vos données ? Commentez, partagez, et emparez-vous de cette idée. Elle vous appartient aussi.

Précautions

Expertise de l’auteur : sachez que certaines des idées décrites ici font débat : faite-vous votre propre opinion.
Opinions personnelles : cet article reflète mes idées personnelles (voire parfois de simples hypothèses) et non pas celles de mon employeur.