Retour sur le sprint organisé par Twincity : l’équipe dévoile ses premières réalisations

Jehanne Dussert
6 min readFeb 13, 2023

--

Twincity est un défi porté par le programme Entrepreneurs d’Intérêt Général (EIG) d’Etalab et la Sous-direction Innovation et Transformation Numérique (SDITN) du Ministère de l’Intérieur et des Outre-mer. Son objectif est de réaliser un bac à sable de données synthétiques [1] représentant des scènes photoréalistes de villes françaises afin d’en explorer le potentiel dans l’entraînement d’algorithmes d’Intelligence Artificielle (IA) et de répondre aux besoins exprimés par les data scientists en computer vision d’obtenir des jeux de données variées et paramétrables [2].

Le 6 février 2023, avait lieu la première revue de sprint de Twincity afin de présenter l’orientation donnée au projet, d’évaluer les résultats obtenus au cours de la première phase du défi ainsi que de détailler les objectifs à venir. Cet événement a permis de réunir différents acteurs et actrices gravitant autour des missions du Ministère de l’Intérieur et des Outre-mer et de construire une réflexion commune autour de Twincity.

Etaient notamment présents et présentes des agents terrain, des membres de la Préfecture de Police de Paris et de la Brigade des sapeurs-pompiers de Paris, des data scientists et membres de la SDITN, des acteurs et actrices de la sphère juridique (Direction des libertés publiques et des affaires juridiques du Ministère, CNIL), des membres du Laboratoire national de métrologie et d’essais (LNE), de l’Inria ou encore de la Fabrique des Géocommuns.

Twincity : un bac à sable de données synthétiques pour les data scientists en computer vision

Dans le cadre du programme, les deux EIG — Jehanne Dussert, développeuse et le data scientist du défi — ont dû dans un premier temps valider l’hypothèse qui leur était soumise :

“élaborer des jumeaux numériques de villes françaises […], pour simuler les problèmes de sécurité dans l’espace public”.

Suite à une phase de recueils de besoins, un constat s’est rapidement imposé aux EIG : un terrain de pré-expérimentation, en amont de l’acquisition de données réelles (par exemple : des images de vidéoprotection), et composé de scènes urbaines françaises, est nécessaire aux data scientists en computer vision afin de pouvoir tester leurs algorithmes. A titre d’illustration, Twincity a pour ambition de permettre à ses utilisatrices et utilisateurs d’expérimenter leurs algorithmes sur des scènes (photos ou vidéos) issues d’un jumeau numérique de Paris afin d’isoler et flouter des parties privatives d’immeubles (plus précisément des fenêtres).

De nouveaux besoins remontés

Grâce à l’implication de l’audience, de nouveaux besoins ont pu être identifiés, notamment :

  • en termes de jeux de données proposés : la Brigade des sapeurs-pompiers de Paris a soumis le besoin de générer des données synthétiques de personnes dans la Seine afin d’entraîner des modèles d’IA à les détecter et limiter les risques de noyade ;
  • en termes de visualisation : permettre aux agents terrain de modéliser leurs déplacements en intérieur dans le cadre d’interventions liées à des incendies.

De premiers résultats techniques prometteurs

Suite à cette phase de validation de l’hypothèse, les deux EIG ont eu pour mission de prouver que le concept est réalisable. En ce sens, plusieurs briques techniques ont dû être expérimentées :

  • côté développement : pouvoir générer un jumeau numérique de Paris photoréaliste et en extraire des données synthétiques ;
  • côté data science : réaliser un benchmark des jeux de données synthétiques existants afin d’en explorer l’impact sur des algorithmes d’IA.

La génération d’un premier quartier de Paris comme produit minimum viable

Dans le but de créer un produit minimum viable, Jehanne Dussert et le reste de l’équipe développement (Nobila Traore, développeur, Rémi Giner, développeur stagiaire et William Lahemar, game artist stagiaire), ont dû étudier certains quartiers de Paris afin de capturer des architectures et mobiliers urbains typiques de la ville et réaliser le référentiel le plus complet possible. L’EIG a par la suite établi une feuille de route ainsi qu’un backlog (liste prioritaire de fonctionnalités), qui évolue régulièrement à la lumière des dernières avancées ou difficultés rencontrées par l’équipe. Suite à cette étape, l’équipe développement s’est concentrée sur :

  • la génération d’un quartier du 17e arrondissement de Paris à partir de données OpenStreetMap (immeubles, routes) :
Paris 17e arrondissement
  • l’enrichissement de la scène par une architecture, des objets et du mobilier urbain représentatifs de Paris (architecture haussmannienne, bouches de métro, stations de bus, lampadaires) :
  • la génération et l’animation de foules de piétons aux physiques variés :
Génération d’une foule de 10 à 300 personnes dans Twincity
  • la gestion des scènes de jour et de nuit :
Une place de Paris 17e reproduite dans Twincity de jour et de nuit
  • l’extraction des données synthétiques en version RGB et avec segmentation sémantique [3] intéressant l’EIG data scientist dans ses recherches :
Vidéo d’un quartier de Paris réalisé dans Unreal Engine en version RGB et avec segmentation sémantique

Des objectifs à venir tournés vers les utilisateurs/ices

En ce qui concerne les prochaines étapes techniques

Jehanne Dussert espère à l’issue du mois de février, pouvoir rajouter les briques techniques suivantes :

  • la génération et l’animation de véhicules ;
  • un menu proposant à l’utilisateur/ice de paramétrer le quartier de Paris choisi : nombre de piétons et véhicules, conditions météorologiques, quantité et type de données générées (photos ou vidéos), positionnement des caméras réalisant les prises de vue dans le quartier.
Maquette d’illustration des paramètres et options à inclure dans le menu

Le data scientist du défi se penchera quant à lui sur l’étude d’un premier cas d’usage propre au Ministère de l’Intérieur et des Outre-mer (probablement celui du floutage) à partir des jeux de données synthétiques générées côté développement. L’intérêt de ces données pourrait être à terme double :

  • En matière de modèles entraînés : étudier les biais qu’ils pourraient comporter. Par exemple : tester un modèle d’IA de détection de piétons avec des données synthétiques de nuit afin de confirmer que les variations de luminosité n’impactent pas les performances du modèle ;
  • En matière d’entraînement de modèles : confirmer l’intuition des EIG de considérer les données synthétiques comme un formidable gisement de recherche à exploiter pour entraîner des modèles d’IA — ou du moins en compléter l’entraînement. Par exemple : dans le cas d’un modèle n’ayant connu que des scènes urbaines peuplées en lui soumettant des scènes sans piéton.

En ce qui concerne la création d’une communauté d’alpha testeurs et testeuses

Grâce à ce premier produit, les deux EIG pourront mobiliser des alpha testeurs/ses afin de collecter leurs retours et évaluer l’impact de l’outil sur la communauté visée : il s’agira de la phase de preuve de valeur du programme. Une démonstration de l’outil sur le site de Twincity sera prochainement mise en ligne afin d’assurer la transparence des travaux menés dans le cadre du défi.

La revue de sprint résumée

Grâce aux différentes étapes passées et à la lumière des recueils de besoins effectués, les deux EIG ont pu élaborer un premier produit minimum viable dont peut être extrait un jeu de données variées et paramétrables (prises de vue dans le jumeau numérique, physique des piétons, changements de luminosité) permettant d’entraîner des algorithmes d’IA. L’implication d’alpha testeurs/ses dans la suite du défi permettra de confirmer les premiers résultats obtenus et de concrétiser l’impact de ces données synthétiques.

Ce premier sprint a permis de dégager de nouveaux cas d’usage à intégrer grâce aux échanges et aux retours d’expérience de l’audience. Les deux EIG resteront tout au long du défi à l’écoute de besoins qui n’auraient pas encore été identifiés afin d’exploiter pleinement le potentiel de l’IA dans les jumeaux numériques de villes.

[1] Les données synthétiques mentionnées sont des images et des vidéos de scènes représentant Paris capturées dans le moteur de jeu vidéo Unreal Engine et reconstituées à partir de données OpenStreetMap. Seules les données relatives aux immeubles, routes, mobilier urbain sont exploitées. Aucune donnée relative à des piétons, voitures, parties privatives ne sont réelles.

[2] Retrouvez le premier article de Jehanne Dussert, Lead developer sur le défi : Défi Twincity : la Sous-direction Innovation et Transformation Numérique (SDITN) présente son bac à sable de données synthétiques

[3] La segmentation sémantique a pour objectif de définir des classes d’appartenance de chaque objet peuplant Twincity en leur attribuant un code couleur défini. Elle permet notamment de faire de la détection d’objets comme par exemple : de piétons, de fenêtres, de véhicules.

--

--