Défi Twincity : la Sous-direction Innovation et Transformation Numérique (SDITN) présente son bac à sable de données synthétiques

Jehanne Dussert
3 min readJan 19, 2023

--

Le 12 septembre 2022 commençait le défi Twincity au sein du Ministère de l’Intérieur et des Outre-mer, propulsé par le programme Entrepreneurs d’Intérêt Général (EIG) d’Etalab. Le but ? Créer un bac à sable de données synthétiques afin de favoriser l’innovation au sein du Ministère, tout en mettant l’accent sur la transparence et l’éthique des méthodes employées.

Les données synthétiques en bref

Les données synthétiques sont des données générées de manière artificielle afin de reproduire des données réelles. Elles peuvent être déclinées sous plusieurs formes : textes, médias, audios, micro-données etc. Dans le cadre du défi Twincity, les données sont représentées sous forme de photos et vidéos. L’objectif poursuivi est pluriel, leur génération permettant :

  • la diffusion, le traitement et l’exploitation de données respectueuses des obligations relatives au règlement général sur la protection des données (RGPD) et aux recommandations de la CNIL;
  • l’acquisition d’un volume de données plus important ;
  • l’enrichissement des datasets (jeux de données) dont dispose le Ministère de l’Intérieur et des Outre-mer grâce à la diversification des données générées.

Les objectifs poursuivis par le défi Twincity

Les deux EIG ont pour objectif au cours du défi de prouver le potentiel des données synthétiques, générées à partir d’un jumeau numérique de ville, en matière d’entraînement d’algorithmes d’Intelligence Artificielle (IA) éthiques et respectueux des données personnelles. Si cette hypothèse est vérifiée, ces données de synthèse permettraient au Ministère de l’Intérieur et des Outre-mer d’augmenter la performance, la fiabilité et la précision des modèles d’IA entraînés, tout en veillant au respect des droits et libertés des citoyennes et citoyens.

En ce qui concerne plus précisément le dataset généré, l’intérêt est avant tout de permettre aux data scientists du Ministère de l’Intérieur et des Outre-mer d’avoir accès à des données variées ou dont ils ne disposeraient pas : architectures de bâtiments, textures, personnes représentées, conditions météorologiques, points de vue capturés, formats (photos, vidéos) etc.

La génération de données synthétiques

Dans le cadre de Twincity, la génération des données synthétiques a été confiée à la développeuse du défi accompagnée d’une équipe de développeurs et d’un game artist.

Concernant les données exploitées

Les données de synthèse peuvent être générées de manière complètement artificielle ou à partir d’une base de données tendant à reproduire fictivement un environnement. En l’espèce, Twincity s’appuie sur :

  • les données cartographiques OpenStreetMap afin de modéliser l’architecture de Paris, ses bâtiments et ses rues et d’accéder à la représentation d’une ville française ;
  • des données strictement fictives concernant les personnes et véhicules peuplant la ville.

Concernant les méthodes employées

La génération de données synthétiques peut être réalisée à travers différents procédés, notamment :

  • grâce à des modèles d’IA ;
  • grâce à l’exploitation de logiciels de modélisation (Blender, Houdini) et/ou de moteurs de jeux vidéo (Unreal Engine, Unity) et de scripts.

En l’espèce, Twincity s’est orientée dès le début du défi vers Blender et Unreal Engine 5. Les données cartographiques de Paris sont représentées à travers un découpage par quartiers sur Blender, et enrichies des données fictives susmentionnées sur Unreal Engine 5.

Concernant l’acquisition des données et leur labellisation

Suite à la génération des données synthétiques, ces dernières doivent faire l’objet d’une extraction afin d’en permettre l’exploitation. Plusieurs éléments doivent être pris en compte :

  • la nature des données : photos, vidéos, audios ;
  • les formats : RGB, sémantique ;
  • la méthode d’extraction employée ;
  • la labellisation ;
  • la quantité et qualité des données.

Twincity extrait ses données photos et vidéos sous cinq formats afin d’en permettre la pleine exploitation par le data scientist du défi.

Exemple d’une donnée synthétique au format image générée dans Twincity — Paris 17e
Version sémantique de l’image

Le défi Twincity en résumé

Grâce à Twincity, la Direction du numérique du Ministère de l’Intérieur et des Outre-mer, et plus particulièrement de la Sous-direction Innovation et Transformation Numérique (SDITN), s’inscrit dans une démarche de développement d’outils performants, éthiques et transparents (le code est ouvert et documenté sur Github). Un premier prototype de quartier de Paris devrait être livré d’ici février afin de quantifier l’intérêt des données synthétiques sur la performance d’algorithmes (par exemple, sur des algorithmes de floutage).

--

--