La part d’impondérables, ou La pêche aux canards

L’été, c’est aussi le temps des fêtes de village, brocantes, barbecues entre voisins et bals aux lampions dans nos petites bourgades belges. J’ai la chance d’habiter une commune très festive, logée au coeur des champs de blés hesbignons. Dès que les beaux jours reviennent, les comités se retroussent les manches et dressent des chapiteaux au pied de l’église. Les châteaux gonflables s’élèvent et les pompes à bières se remplissent. Les forains déploient leurs manèges et ouvrent leurs baraques à frites.

La dernière fois que j’ai emmené ma gamine à la fête du village, nous avons fait une halte obligée à la pêche aux canards. Je ne connais pas un enfant qui n’aime jouer de la canne et choper du canard en plastique — il se peut que vous-même ayez été un redoutable petit pêcheur, il y a quelques années! Quoi qu’il en soit, j’autorise ma petite à pêcher une vingtaine de palmipèdes et prie déjà pour qu’elle ne choisisse pas, parmi les centaines de cadeaux possibles, le sceptre Reine de Neiges qui hurle “Let it go, Let it gooooooooooooo” à 120 décibels. Et là, en attendant patiemment que ma fille pêche ses vingt canards (parce que, attention, il faut prendre soit des roses, soit des canards avec un petit foulard sur la tête, mais surtout pas de cygne!), je pense.

Les jouets sur les étals des forains sont toujours rangés de la même façon : les petits prix en bas, les gros prix en haut. La cacaille en bas, les beaux jouets en haut. C’était déjà comme ça il y a trente ans. En étudiant rapidement le choix qui s’offre à nous, je parie que Mathilda choisira la dînette ou le set de docteur qui se trouve à mi-chemin entre l’enfer et le paradis du jouet populaire, dans le purgatoire forain du trophée en plastique. Combien de points faudrait-il pour qu’elle puisse remporter ces cadeaux-là? Discrètement, je regarde le ventre de deux canards : le rose porte 5 points et celui à foulard 15 points!

-“Prends ceux avec des foulards, ma puce, prends ceux avec des foulards!”

-“Mais maman-heu! Tu m’embêtes!” me rétorque ma fille en relâchant un cygne qui avait eu l’outrecuidance de s’accrocher à sa canne.

Je ravale mon esprit de compétition et calcule. Si ma fille parvient à pêcher 20 canards à minimum 15 points, elle obtiendrait 300 points. A combien estime-t-on les jouets placés tout en haut de l’étal? Mille points? Du coup le set de docteur serait à 500 points?

Je suis toujours dans mes réflexions mathématiques de haut vol quand la foraine annonce à Mathilda qu’elle peut choisir de là à là et d’ici à par là : un gros ou deux petits jouets, comme elle veut. Et là, soulagement maternel : le set de docteur et la dînette sont dans la sélection. Ouf, on est sauvé. Mathilda regarde, un peu perdue, les dix mètres de jouets qui s’étendent devant elle.

-“Oh regarde, le beau set de docteur! Justement, on n’a plus que 4 stéthoscopes à la maison…”.

-“Non, maman, j’aimerais bien l’avion-là” me répond Mathilda en pointant ses quatre adorables centimètres de doigt vers un petit avion en plastique aux couleurs de Google.

-“Le quoi?”

Alors ça, mon algorithme maternel n’avait pas prévu.

Un avion? Qu’allait-elle en faire? Finalement, il s’avéra que c’était un excellent choix : l’avion était entièrement démontable et muni d’un tournevis et d’une clé anglaise. Ma fille passa des heures à démonter et remonter son jouet, apprenant ainsi à dévisser, revisser et à réfléchir comme un ingénieur de 3 ans et demi. Une maman a beau connaître son enfant sur le bout des doigts, elle se laissera toujours surprendre par des volontés inédites.

C’est la même chose en data science. Prenons un exemple simple : imaginons qu’un data scientist doit développer un algorithme qui puisse prédire la probabilité de pouvoir se garer dans une rue. Pour ce faire, il possède les données GPS d’un célèbre avertisseur de radars, grâce auxquelles il peut retracer le parcours des automobilistes dans Bruxelles. La formule mathématique est la suivante :

Pg = Pp x Pe

Pg = la probabilité de se garer

Pp = la probabilité de trouver un place

Pe = la probabilité d’avoir envie de se garer

En français, cela donne : s’il y a une place et que j’ai envie de me garer, je me gare ( 1 = 1 x 1). S’il n’y pas pas de place bien que je veuille me garer, je ne me gare quand même pas ( 0 = 0 x 1). S’il y a de la place mais que je n’ai pas envie de me garer, je ne me gare toujours pas ( 0 = 1 x 0). Bien sûr, s’il n’y a pas de place dans une rue où je ne veux pas me garer, je continue mon chemin (0 = 0 x 0).

La formule peut s’adapter à mon histoire de pêche aux canards : la probabilité d’emporter le set de docteur est égale à probabilité d’avoir assez de points multipliée par la probabilité que Mathilda ait envie du set de docteur.

On peut calculer la probabilité qu’il y ait de la place dans une rue à telle heure de la journée (en se basant sur des données GPS, mais aussi sur des données publiques comme le nombre de résidences, les horaires des magasins et des écoles aux alentours, la présence d’un lieu de culte, les tarifs des horodateurs…), comme on peut calculer la probabilité d’atteindre 200 points en pêchant 20 canards.

Par contre, dans le monde des statistiques comme dans celui de l’instinct maternel, l’envie des sujets sera toujours imprévisible. Cette petite zone floue n’est pas un frein aux travaux de data science ; au contraire, c’est à cet endroit que la discipline prend toute sa valeur et sa pertinence. Cette petite marge de fantaisie humaine constitue le terrain de jeu de prédilection de la data science, puisque débarrassée des présupposés et des jugements, celle-ci s’en tient aux faits et aux données réelles.

En effet, comment définir la probabilité que quelqu’un ait envie de se garer quelque part? Bien sûr, si on connaît ses habitudes, son lieu de travail ou son lieu d’habitation, on peut supposer qu’il voudra se garer à proximité. Vraiment?

-“Attention, c’est peut-être une croyance!, me confie Malian, data scientist. Certains utilisateurs iront systématiquement se garer dans un parking public, même s’ils passent à côté d’une place libre dans la rue de leur bureau. Il est aussi judicieux de s’intéresser à la patience des conducteurs : certains cherchent une place de parking pendant plus de 15 minutes pour se garer le plus près possible de leur point de chute alors que d’autres capitulent après 5 minutes d’investigation et se garent à 2 kilomètres de leur destination finale”.

-“D’accord, Malian. Si je comprends bien, on ne peut pas supposer que tout automobiliste souhaite se garer dans un périmètre raisonnable autour de l’endroit où il souhaite se rendre, c’est bien ça?”

-“On pourrait, mais cela doit rester une hypothèse! Qu’est-ce qu’un “périmètre raisonnable” selon toi? A quoi correspond cette distance? 20 mètres? 100 mètres? 500 mètres? En fonction des personnes et des agglomérations, cela pourrait varier. Mais un algorithme peut nous aider à nous rapprocher de cette valeur, sans se laisser influencer par les croyances humaines”.

Une équipe de data scientists d’EURA NOVA, dont fait partie Malian, a été confrontée à cette marge d’impondérables en travaillant sur une problématique similaire. Voici les trois enseignements principaux qu’elle en a tirés :

  • identifier rapidement les impondérables — le besoin ou pas de se garer, le choix délibéré de se garer à 2 km du bureau pour faire un peu d’exercice, la lubie soudaine de choisir l’avion plutôt que le set de docteur,
  • avoir un regard et un discours honnêtes sur ces impondérables : de la part des data scientists comme des personnes du business,
  • essayer de contourner ces impondérables, en les simulant pour valider le modèle sur base d’hypothèses par exemple.

Et, au fait, Mathilda avait droit à un deuxième petit jouet : elle a pris le sceptre Reine des Neiges casseur d’oreilles. Mon algorithme maternel marche pas mal, quand même!

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.