Amener un data scientist en rendez-vous commercial ?

Thomas Gerbaud
5 min readOct 3, 2016

--

Un data scientist est meilleur en mathématiques qu’un informaticien, et meilleur en informatique qu’un mathématicien. — Josh Wills [1]

Une définition pas complètement idiote, parmi d’autres, mais qui me semble laisser de côté deux points importants : la capacité à pouvoir détecter la faisabilité des projets data. Et, plus important encore, la capacité à pouvoir détecter la non-faisabilité des projets data. On n’apprend que dans la douleur, aimait à répéter le marquis de Sade, et s’être trop souvent heurté à des murs trop solides forge une certaine expérience, sinon une envie certaine à ne plus s’y fracasser.

Trop souvent, on limite le périmètre d’action des techniciens aux arrières boutiques, ou aux sombres caves s’ils sont vraiment bons, les éloignant du business. Voire du client, comme une vulgaire SSII^W pardon, ESN qui trouve pertinent d’ostraciser ainsi les gens. Ce qui est dommage. Mais après tout, c’est leur problème. Je vais tenter de vous montrer comment OceanData fait pour traiter un rendez-vous commercial en phase d’avant-vente, sur un exemple qui n’est pas entièrement fictif.

Les Tontons Flingueurs, évidemment.

— « Bonjour M DataScientist. Je suis le président de Béton Immobilier. Que pouvez faire pour moi ? Je dois rejoindre Nicolas pour déjeuner dans 13 minutes »

— « Bonjour. Docteur DataScientist, je vous prie. Je n’ai pas passé 9 ans à analyser des données scientifiques issus de plasmas chauds et de gaines de combustible nucléaires en vrac pour le plaisir. Quel est votre problème ? »

— « Il est triple. Je veux gagner plus d’argent, réduire mes coûts, et accélérer les prises de décision. »

— « Ça tombe bien, c’est ma spécialité. Quel heureux hasard ! Nous savons valoriser vos bases de données, apprenant du passé pour mieux prédire le futur. Les principaux avantages par rapport aux autres méthodes, comme la lecture des entrailles de poulets ou des lignes de la main, résident dans la pertinence des prévisions, la rapidité d’exécution et la mise au point de méthodes adaptées, voire sur mesure. C’est aussi nettement moins salissant. De quelles types de données disposez-vous ? »

— « Vingt ans d’historique de ventes, comprenant évidemment une description formalisée des biens et, pour chaque projet, finalisé ou non, les différentes étapes commerciales, les profils des acheteurs, potentiels ou réels, ainsi que tous les intervenants internes ou externes. Et d’autres choses. Nous sommes une centrale de vente immobilière et nous vendons plus de 1500 biens chaque année. »

— « Le but est donc de présenter vos produits aux bonnes personnes, au bon prix. Et de détecter les axes d’améliorations possibles dans vos process internes. »

— « Oui. C’est le genre de chose que je pourrais faire tatouer sur chaque membre de chaque personne de mon équipe dirigeante, je le ferai. »

— « En supposant que vos données sont suffisamment structurées pour se prêter à des analyses statistiques poussées, il sera possible de faire quelque chose. Sans vouloir trop m’avancer, j’aurais tendance à être optimiste sur le projet. Vous arriveriez en retard à votre rendez-vous si je détaillais les raisons qui me poussent à penser de la sorte. Je ne pourrai cependant me prononcer qu’après une étude sérieuse de vos données. »

— « Ça a l’air intéressant. Comment procède-t-on ? »

— « Je vous envoie un devis pour l’analyse, et vous un NDA [2]. Pour être tout à fait franc, je dois vous avouer que mon plus gros problème est d’être nettement moins cher que ce que pourront vous proposer les cabinets d’accompagnement en transformation digitale. Un horrible défaut, aux yeux de certains. »

— « Ok. Je dois y aller, Nicolas n’aime pas attendre. ».

Vous aurez noté en habile lecteur que ce dialogue ne fait intervenir aucune technicité, ni de la part du (futur) client, ni de la part du data scientist. Pourquoi ? Parce qu’il n’y en a pas besoin. Un seul point diffère quelque peu de la réalité : le décideur ne sait pas toujours ce que ses bases de données contiennent. C’est certes révoltant, mais c’est ainsi. Quel est l’apport du technicien, par rapport à un discours que pourrait sortir n’importe quel commercial bien cadré ? Traduire les informations que lui donne son interlocuteur en ordre de grandeurs, ce qui permet de pouvoir dégrossir un chiffrage technique :

  • 1. Vingt années d’historique, 1500 biens par an, probablement quelques dizaines d’informations par bien, soit entre 300k et 3M de valeurs.
  • 2. Supposons 10 acheteurs potentiels par logement (hypothèse haute), et 30–50 logements par bien (doigt mouillé) : entre 900k et 1.5M d’acheteurs potentiels.
  • 3. Les analyses consisteront principalement en séries temporelles (« vingt années d’historique ») montrant l’évolution d’indicateurs construits sur des opérations statistiques de base (moyenne, écart type) issus de groupes partiels basés sur des caractéristiques des logements, des clients ou des intervenants.
  • 4. Vingt années d’historique permettent de faire émerger, en fréquence basse, des cycles temporels saisonniers, après, au besoin, recalage annuel et agrégation des données brutes, et en fréquence haute, des cycles à 3–5 ans. On pourra pousser jusqu’à 8–9 ans, en abandonnant un peu la rigueur mathématique. Ce qui plaira sûrement au client.
  • 5. Il y aura, probablement, suffisamment de données pour sortir des échantillons >100 points sur des dizaines de groupes : 30k biens vendus peuvent donner 30 groupes de 1000 points, et 1M d’acheteurs donnent environ 100 groupes de cardinal 10k.
  • 6. Les opérations à réaliser sont a priori d’un grand classicisme : travail sur base de données de taille moyenne (quelques millions d’entrées) sur des types classiques de données (chiffres, textes, dates), opérations de sélection/classement sur critères simples, calculs mathématiques basiques, recherche de structures temporelles.
  • 7. Au besoin, des traitement type machine learning (apprentissage automatique) seront accessibles, au vu de la faible masse des données : des méthodes performantes de classification, de segmentation, de prédiction seront disponibles.

Le projet parait techniquement simple. Il sera probablement très rapide de sortir des informations agrégées et autres indicateurs sans devoir se plonger dans l’utilisation d’outils abscons ni la lecture de papiers algorithmiques russes… oui, ça arrive parfois. La seule inquiétude, de taille, concerne la base proprement dite : est-elle suffisamment structurée pour être travaillée rapidement, sans passer par une longue phase de nettoyage, de re-formatage ou de re-contextualisation. Ce point est important car ce travail est spécifique à chaque base et donc, non reproductible. Il ne sera éclairci qu’après réception et étude de la base. Une fois cette inquiétude levée, il convient de travailler en étroite collaboration avec le client pour les besoins et aspects métiers.

Ensemble, tout devient possible.

[1]: un parcours professionnel plutôt sérieux, LI. Définition qui marche aussi avec les statisticiens.
[2]: non disclosure agreement

--

--

Thomas Gerbaud

Dresseur de données | Considérations intempestives d’un data scientist. http://oceandata.io