Le Machine Learning est-il magique ?

Qucit FR
Qucit FR
Nov 16, 2017 · 7 min read

Le Machine Learning ne fait pas tout. Face à un problème avec de grandes quantités de données, la première chose à faire consiste à bien comprendre l’étendue du problème et à connaître précisément ses données. Un modèle de Machine Learning est un outil puissant qui participe à la résolution, mais il s’agit rarement de la solution. Dans de nombreux scénarii,une solution fondée uniquement sur un modèle de machine learning ne fournira pas une réponse robuste. Dans cet article, nous présentons quelques techniques pour combiner intelligemment un modèle prédictif de Machine Learning avec des étapes de post-traitement sur les prédictions du modèle.

Introduction

Le Machine Learning a vu, ces dernières années, un développement extrêmement rapide et son utilisation s’est largement popularisé. Il est parfois considéré comme une formule magique qui permet de résoudre toutes les problématiques impliquant de gros volumes de données. L’efficacité des modèles de Machine Learning n’est plus à démontrer mais on oublie souvent que leur performance est conditionnée par une compréhension fine du problème à résoudre.

Certains problèmes peuvent en effet se révéler difficile à exprimer sous la forme d’un pur problème de machine learning. Il peut notamment être trop coûteux / impossible d’obtenir des données labellisées, rendant caduque les techniques d’apprentissage supervisées. Les méthodes d’apprentissage non supervisées peuvent aussi ne pas être du tout applicable au problème. Dans ce cas il peut être judicieux de reformuler le problème en un problème intermédiaire, souvent plus général et pour lequel les techniques de Machine Learning seront pertinentes et efficaces. Puis appliquer une étape de post-processing sur les prédictions du modèle pour répondre précisément au problème posé.

Le post-processing consiste à effectuer un traitement sur les prédictions produites par un modèle. C’est une étape souvent négligé alors qu’elle est toute aussi importante que celle du feature engineering ou d’élaboration du modèle. Le post-processing permet de s’assurer que les prédictions sont cohérentes et que l’erreur de prédiction du modèle reste raisonnable. Il permet aussi de corriger des biais inhérents à un modèle et aux choix dans la modélisation. Un post-processing intelligent peut enfin permettre une interprétation automatique des prédictions et leur transformation pour les rendre plus intelligibles et exploitables.

[et_bloom_locked optin_id=”optin_1″]

Il s’agit de techniques que nous employons souvent à Qucit pour résoudre les problèmes de mobilité urbaine que nous posent nos clients. Il s’agit très souvent de problèmes complexes où le volume de données à traiter est très conséquent. On est alors tenté d’appliquer des techniques de Machine Learning pour proposer une solution. Cependant, il s’agit souvent de problèmes pour lesquels on ne connaît pas la réponse et il nous faut donc effectuer un réel travail de modélisation du problème.

Cas d’usage

Le vélo s’affirme tous les jours comme un moyen de transport rapide, économique et très prisé des citadins. Il devient essentiel pour les villes de disposer d’un système de vélos en libre service (VLS) performant. Ces derniers mois ont aussi vu se développer un nouveau type de VLS, dit en free floating, c’est-à-dire sans station et la possibilité pour les utilisateurs de déposer son vélo à peu près n’importe où.

Tout utilisateur d’un système de VLS a très certainement déjà expérimenté la difficulté de trouver un vélo ou une place aux heures de pointe de la journée. Le matin il est impossible de trouver une place à proximité de son lieu de travail et le soir impossible de trouver un vélo pour rentrer chez soi. Les nouveaux vélos en free floating (VLS sans stations) répondent en partie à cette problématique puisqu’il n’est plus question pour l’utilisateur de chercher une place. Cependant le free floating reste concerné par le même phénomène de concentration des vélos dans certains quartiers et par conséquent une absence de vélos dans d’autres, ce qui peut nuire à la fiabilité de ce mode de transport sans action de la part des opérateurs du système.

L’un des enjeux essentiels pour les opérateurs de ces systèmes est de remédier à ce problème de disponibilité et de s’assurer que les stations ne restent jamais vides ou pleines trop longtemps. Les opérateurs déplacent donc des vélos entre les stations pour vider les stations pleines et remplir les stations vides. Pour de petits systèmes de moins d’une soixantaine de stations, une bonne connaissance de la ville et de la dynamique des flux de transport peut suffire à effectuer ces opérations efficacement. A partir d’une centaine de stations, cela devient irréalisable. Comme nous l’avons montré dans un précédent , le nombre de trajets dans un système augmente exponentiellement avec le nombre de stations. Dans une ville comme Paris, qui comptera 1400 stations en 2018, le rééquilibrage des stations devient un vrai casse-tête.

Figure 1 : Evolution de l’occupation dans deux stations de Bordeaux pendant une semaine

Les opérations de rééquilibrage sont visibles aux points de discontinuité (donc certains sont signalés en rouge).

La problématique est donc la suivante : Quelles sont les opérations à effectuer sur les stations et comment les effectuer pour assurer une disponibilité maximale des stations dans les prochaines heures tout en minimisant les coûts logistiques provoquées par ces opérations ?

L’approche Qucit

Chez Qucit, nous travaillons depuis plusieurs années sur les problématiques posées par le vélo en libre-service. Nous collectons en permanence les données relatives aux occupations des stations et nos clients mettent à notre disposition les données relatives aux trajets effectués par les utilisateurs. A ce jour, ce sont plus de 2Tb de données collectées dans près de 400 villes sur plusieurs mois qui nous permettent de travailler sur les problèmes de mobilité urbaine posée par le vélo. En revanche, nous ne disposons pas des opérations qu’il aurait fallu effectuer pour garantir la disponibilité des stations. De plus il n’est pas possible d’évaluer cette quantité car une modification du nombre de vélos à une station modifie aussi la demande visible. En effet lorsqu’une station est vide, il peut exister pour autant une demande latente en vélos des utilisateurs que l’on ne peut observer. Seul le fait de rajouter des vélos permettrait de l’observer. Élaborer un modèle de Machine Learning capable de prédire le nombre idéal de vélos se révèle donc très difficile et peu pertinent.

Nous avons donc adopté une approche totalement différente. Plutôt que de tenter de prédire directement le nombre de vélos idéal à une station, on choisit de prédire la probabilité qu’une station soit pleine ou vide dans les prochaines heures. On estime ainsi la probabilité que la demande en vélos remplisse ou vide complètement la station. L’estimation d’une probabilité plutôt que d’un nombre de vélos est d’autant plus pertinente que l’évolution de l’occupation d’une station est une série temporelle avec une grande part d’aléatoire, ce que seul une approche probabiliste permet de rendre compte. De plus on ne cherche pas à déterminer si une station disposera de 12 ou 13 vélos dans une heure mais si la station risque d’être vide ou pleine dans une heure. On choisit ainsi de quantifier ce risque par la probabilité que la station rencontre un problème de disponibilité.

Vient ensuite l’étape de post-processing qui nous permet de répondre à la question de nos clients. À partir de ces probabilités, on détermine facilement :

  • Une borne minimale du nombre de vélos à la station pour garantir qu’elle ne soit pas vide avec une certaine probabilité ;
  • Une borne maximale du nombre de vélos pour garantir qu’elle ne soit pas pleine toujours avec une certaine probabilité.

On obtient alors un intervalle du nombre de vélos admissibles qui garantit la disponibilité de la station avec une certaine probabilité. C’est d’ailleurs une réponse plus pertinente puisque dans le cas général, le nombre de vélos idéal n’a pas de raison d’être unique.

Figure 2 : En jaune : borne maximale / en bleu : borne minimale Plus on regarde loin dans le futur plus l’intervalle admissible est restreint Intervalles admissibles pour garantir une certaine disponibilité

Notre approche nous permet aussi un paramétrage bien plus fin de la réponse apportée au problème et adapté aux besoins de nos clients. Il est ainsi possible de privilégier la disponibilité en vélos ou en bornes par exemple dans le cas d’un modèle qui produirait directement la prédiction, il serait possible de prendre en compte les besoins du clients.

Notre approche nous a conduit à l’élaboration d’un modèle de Machine Learning dontl’output nécessite encore quelques étapes de post-processing avant de répondre à la problématique. Ce qui peut apparaître comme un travail supplémentaire constitue en réalité la force de notre modèle. Les prédictions du modèle sont en effet facilement interprétables et vérifiables. Dans un contexte où les attentes de nos clients sont fortes et où la pertinence de nos recommandations est critique, l’interprétabilité et la vérifiabilité de nos résultats sont indispensables.

Conclusion

Le Machine Learning ne doit pas être considéré comme une réponse standard à tous les problèmes prédictifs, mais comme une brique utile et potentiellement très performante qui participe à leur résolution. Dans un contexte où les modèles sont utilisés par des clients, il faut être en mesure d’évaluer rapidement la pertinence des prédictions.

Dans l’exemple traité, nous avons fait le choix d’utiliser un modèle de Machine Learning pour répondre à un problème plus général et plus “ bas niveau “ que celui posé par nos clients. Ces modèles que nous avons mis en place ne nécessite ensuite que quelques étapes de post-processing pour répondre à la problématique.

Un modèle simple qui répond à une partie du problème se révèle en général bien plus pertinent. Il est plus souple d’utilisation et plus facile à maintenir car moins soumis à une formulation particulière d’un problème. De plus il nous permet de répondre à d’autres questions que celles posées par nos clients et d’enrichir notre compréhension du phénomène.

La difficulté dans cette approche réside souvent dans la recherche d’un problème intermédiaire qu’un modèle de Machine Learning résout efficacement. Une excellente maîtrise des données et une compréhension fine de ce que l’on cherche à modéliser constitue alors la clé pour y parvenir.

[/et_bloom_locked]

Qucit FR

Written by

Qucit FR

Construire des villes agréables grâce à l’intelligence artificielle ! #Urban #Data #AI #SmartCities #Software

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade