Un défi vert pour Grenoble

Et voilà, c’est déjà terminé ! Le défi EGC 2017 vient de clôturer ses portes et nous connaissons enfin le grand gagnant !

Pour cette seconde édition, le challenge s’est déroulé à Grenoble du 24 au 27 janvier 2017, sur le campus universitaire de l’UGA… et nous y étions invité !
Un challenge qui a fait parlé de lui puisque pour la première fois à Grenoble, les organisateurs d’une conférence ont décidé de faire parler des données publiques ! Pas moins de 3 acteurs de la région, issu de 3 univers différents, ont ainsi pu travailler main dans la main afin de proposer un défi à la hauteur de la ville. EGC, la mairie de Grenoble et Big Datext se sont associés pour permettre la diffusion de ces données et faciliter leur prise en main par les plus grands laboratoire de recherche.
Des dizaines de chercheurs de toute la France se sont démenés pendant 8 mois pour décortiquer ce jeu de données, en faire ressortir l’information pertinente, et en faciliter sa compréhension à travers une restitution graphique adaptée. Mais de quoi s’agit-il au juste ?

C’est quoi exactement le défi EGC ?

EGC, pour Extraction et Gestion des Connaissance, est une conférence qui existe depuis plusieurs années. Gérée par l’association EGC, elle constitue une conférence francophone majeure dans le domaine et touche un large champs de recherche dans des disciplines très variées. Chaque année, elle permet à de nombreux acteurs du domaine, académiques comme industriels, de se rencontrer et d’échanger sur des sujets connexes, de confronter leurs points de vue et d’avancer sur des projets aussi bien applicatifs que théoriques.

Afin de dynamiser ces rencontres, et de valoriser d’une manière originale les dernières avancées dans le domaine, EGC lance en parallèle de la conférence un défi à toute la communauté sur une problématique spécifique. C’est dans ce cadre que Big Datext a été sollicité afin de trouver une problématique intéressante à proposer à la communauté.

Un défi vert pour Grenoble ?

Cette année, nous avons donc décidé de mettre Grenoble à l’honneur en mettant en avant la politique Open Data de la Ville, menée par Laurence Comparat, visant à diffuser les données publiques de la métropole. Après discussion avec les « services informatique » de la ville et des « espaces vert », et compte tenu des contraintes du challenge, nous avons décidé ensemble d’axer le défi sur les données relatives aux arbres de Grenoble !

Cette base de données a été construite à l’origine par Monsieur Philippe Boujard, malheureusement décédé depuis, pour faciliter la gestion des espaces verts par le service de la ville. Son objectif était de permettre aux employés qui travaillent sur le terrain de pouvoir hiérarchiser leurs priorités. Quels sont les arbres dont il faut privilégier la surveillance ? Quels sont les zones qui réclament une attention particulière ou qui au contraire ne présentent aucun risque ? Toutes ces informations sont renseignées manuellement dans la base de données par les employés de la mairie depuis maintenant une dizaine d’année.

Il est donc intéressant de savoir ce que nous pouvons apprendre de cette base de données, quelles informations intéressantes pouvons-nous en retirer ? Peuvent-elles être enrichies et avoir un usage complémentaire à celui d’aujourd’hui ? Autant de questions auxquelles les participants du défi ont essayé de répondre !

Mais que faire avec ces données ?

Identifier les zones prioritaires, les zones à risque, le type de fréquentation à proximité, l’espèce de l’arbre, les défauts qu’il présente, à quel endroit… sont autant de critères à prendre en compte pour favoriser un entretien adaptée et proposer une gestion plus durable de ces espaces.

Formellement le challenge a été divisé en deux tâches distinctes :

  • Tâche 1 : sur la base des données déjà recueillies, est-il possible de prédire si oui ou non un arbre présente un défaut et si oui, à quel endroit ?
  • Tâche 2 : beaucoup plus libre, elle vise à essayer d’apporter plus de compréhension de la base de données, à l’enrichir si possible avec de nouvelles connaissances et proposer de nouvelles perspectives quant à son utilisation.

De plus ample détails concernant les données mises à disposition et la baseline obtenue sont disponible ici.

Quel est l’intérêt ?

A l’image des logiciels libres, ce défi sollicite la coopération de nombreux spécialistes du domaine. Que ce soit les experts de la base de données des arbres ou bien ceux des données en générale, la mutualisation de leur savoir offre de nouvelles perspectives et donne un nouvel élan à la diffusion des données publiques. 
C’est une collaboration qui profite à tous. Tout d’abords aux employés du service des espaces verts qui pourront peut être prévenir le remplacement des arbres sans avoir à tous les vérifier chaque année. Mais également du point de vue des chercheurs, qui peuvent y voir l’occasion de tester leurs travaux en se confrontant à une problématique concrète et réelle. Et enfin, pour le grand public, pour qui c’est une opportunité unique de voir émerger de nouvelles perspectives quant à l’utilisation de ses données. Traiter l’information, l’interpréter et savoir l’utiliser n’est en effet pas une tâche facile. Permettre à des chercheurs, spécialistes du domaines d’analyser des données publiques de la ville est donc une chance et permet d’offrir de nouvelles perspectives quant à leur utilisation pour la communauté.

Et il en est ressorti quoi ?

La première tâche du défi est un exercice classique souvent rencontré en analyse de données. La difficulté étant de trouver les indicateurs les plus pertinents, ceux qui seront les plus discriminants pour la tâche demandée. Dans notre cas, comme l’ont fait remarquer Levorato et al, les observations de l’expert sont naturellement celles qui apportent le plus d’informations, avant la localisation des arbres et leurs caractéristiques. La qualité de la prédiction est ensuite mesurée en termes de rappel et de précision. Que souhaite-t-on privilégier ? Est-ce que l’on veut s’assurer de la justesse du résultat au risque de passer à côté d’arbres qui présentent eux aussi des défauts ? Ou bien accepter que l’algorithme fasse des erreurs et identifie un arbre comme ayant des défauts alors qu’il n’en a pas ? Il y a généralement un équilibre à trouver entre les deux métriques afin de trouver une réponse optimale au problème. Les meilleurs résultats selon ces deux critères, ont été obtenus par Yelen Per et al à partir des méthodes ensemblistes Random Forest et AdaBoost.

Tous les candidats ont su néanmoins valoriser leurs résultats de façon originale. Le graphique présenté par Levorato et al permet de mieux comprendre le lien qui lie une maladie à une autre et l’occurrence de ces combinaisons. Ainsi, un défaut sur le houppier va souvent de paire avec un défaut sur le tronc, la combinaison tronc-racine est en revanche beaucoup moins fréquente.

Mise en évidence des relations de co-occurrences existantes entre les maladies — Défi EGC 2017: « Modélisation Cost-Sensitive et enrichissement de données », Vincent Levorato, Michel Lutz et Matthieu Lagacherie.

L’outil de visualisation proposé par Yelen Per et al permet quant à lui de localiser géographiquement, sur une carte, l’endroit où se trouvent les arbres de Grenoble en fonction de leurs défauts. Cela a permis notamment de mettre en évidence la corrélation entre le secteur où se trouve un arbre et le défaut qu’il présente. Par exemple, les arbres à proximités des grands axes présentent souvent un défaut au niveau du tronc.

Capture d’écran de l’outil de visualisation développé par Yelen Per et al. En vert : 50 arbres présentant un défaut au niveau de la racine. En blanc : 50 arbres ne présentant aucun défaut. — Défi EGC 2017: « Prédiction de défaut dans les arbres du parc végétal Grenoblois et préconisations pour les futures plantations », Yelen Per, Kevin Dalleau et Malika Smail-Tabbone

La seconde tâche du défi est ainsi l’occasion pour les participants de faire appel à leur créativité afin d’enrichir le jeu de données. Que ce soit via des outils de visualisation ou d’autres jeux de données externes, le but est de donner une meilleure compréhension des phénomènes observées sur le jeu initial et fournir une aide à la décision.

Levorato et al se sont basés sur « le guide d’observation et de suivi des organismes nuisibles en zones non agricoles » afin d’établir une probabilité pour un arbre de contracter une maladie donnée en fonction de son genre botanique. Ils se sont également intéressés aux données de prévision de la qualité de l’air « PREV’AIR » pour déterminer l’impact de certains polluants sur l’état de santé des arbres. Yelen Per et al se sont quant à eux penchés sur des données de prévision météorologiques pour établir si la température, la quantité d’ensoleillement ou bien encore la force du vent peuvent avoir un impact notable sur l’état de santé des arbres.

Même si l’apport de ces différents éléments a été minime pour la tâche première du défi, elle n’en reste pas moins une démarche intéressante qui peut avoir d’autres intérêts et amener à pleins d’autres usages !


Remerciements

Gilles Bisson et Christine Largeron : co-organisateurs du défi EGC qui nous ont sollicité pour la mise en place et la diffusion de la base de données ainsi que la création d’une baseline pour les deux tâches du défi et la validation, à l’aveugle, des résultats des participants.
Pierre Martin et Alain Tanière : nos interlocuteurs au service informatique de la mairie de Grenoble qui se sont donnés beaucoup de mal pour mettre en forme les données et les rendre disponible dans les temps.
Philippe Boujard et Laura Houry du service des espaces verts qui ont pris le temps de nous expliquer l’origine de la base de données des arbres et ce à quoi correspond chacune des variable de la base.