Publication d’un article à la conférence IGARSS 2021 en collaboration avec le Centre Borelli : l’apprentissage auto-supervisé

Bastien Hell
namR
Published in
5 min readJan 10, 2022
Le partenariat entre le Centre Borelli et namR a pour but de mettre en oeuvre des méthodes de l’état de l’art en Computer Vision sur des données réelles manipulées par namR.

Parmi les sujets que namR a pu traiter ces dernières années se trouve la classification des équipements présents sur les toits, ou encore des types et matériaux de toits à partir d’imagerie aérienne. Ce sujet est crucial dans le ciblage et le développement des travaux de rénovation énergétique car ceux-ci dépendent directement des types et matériaux de toits. Pour détecter automatiquement ces caractéristiques, namR a développé un algorithme précis à plus de 87 %, construit à partir d’un modèle pré-entraîné sur la base ImageNet ILSVRC (base d’images de la vie quotidienne, très variées et ressemblant peu aux images aériennes).

Afin de créer des modèles encore plus performants, de nombreux sujets de recherche récents ont abouti à des techniques dites d’apprentissage auto-supervisé. Avec notre partenaire le laboratoire de l’ENS Centre Borelli, nous avons réalisé des travaux d’adaptation de ces méthodes aux données de namR, qui ont mené à une publication lors de la conférence IGARSS (International Geoscience and Remote Sensing Symposium, ou Symposium international sur les géosciences et la télédétection).

L’apprentissage auto-supervisé est un ensemble de méthodes permettant de mobiliser des images non annotées pour aider un modèle de deep learning à “pré-apprendre” à trouver des caractéristiques dans les images dans le but de tâches variées. Pour simplifier, les modèles sont entraînés à comprendre les invariances dans les images, sans en connaître la classification à priori, ce qui leur permet d’utiliser ces représentations pour les tâches supervisées (utilisant des données annotées) ensuite. Les tâches prétextes sont par exemple l’entraînement du modèle à repérer des similarités entre images ou à remplir des parties masquées dans celles-ci. Ces tâches pouvant se faire sans annotation préalable, elles permettent de mettre à profit l’immense quantité d’images disponibles, sans représenter un coût de labellisation prohibitif.

Illustration des différentes méthodes d’entraînement

  1. Entraînement du modèle uniquement sur des données annotées pour l’objectif final (spécialistes) ;
  2. Pré-entraînement sur des données généralistes puis entraînement sur des données spécialistes ;
  3. Pré-entraînement sur des données non annotées, puis entraînement sur des données spécialistes annotées.

Ces méthodes ont été développées sur des jeux de données open source généralistes comme ImageNet ILSVRC où elles ont permis de gagner 2 à 3 % de performance sur des modèles déjà très optimisés en utilisant seulement une fraction des données annotées ! L’intérêt pour tous les acteurs utilisant le deep learning est donc de développer des modèles encore plus performants tout en réduisant les coûts d’annotation des données.

Exemple des performances de classification sur ImageNet
avec les modèles SimCLR et BYOL (source : paperswithcode.com)

Le Centre Borelli et namR ont cherché à confirmer l’intérêt de ces méthodes dans le cadre de tâches de télédétection, c’est-à-dire d’analyse d’images aériennes ou satellitaires, souvent plus complexes car les images présentent beaucoup de ressemblances entre elles. Par exemple, les images aériennes sont composées majoritairement de toits, de routes et de végétation, tandis que les images des jeux de données généralistes sont surtout composées d’objets du quotidien sur des fonds variés en intérieur ou en extérieur.

Les données choisies pour cette expérience sont des images des toits français, aux types et matériaux extrêmement variés ayant un important déséquilibre entre le nombre d’images de chaque type de toit. L’étude proposée était donc de comprendre si l’important biais et la complexité de ces données était un frein à l’entraînement de modèles par contrastive learning, par opposition aux jeux de données nettoyés et équilibrés généralement utilisés pour les challenges d’analyse de données comme ImageNet ILSVRC.

Répartition des type de toit dans la base de labels interne à namR

Le Centre Borelli, lors de ses expérimentations, a pu mettre en lumière l’intérêt à appliquer ces techniques aux travaux de namR. Les modèles entraînés par contrastive learning présentaient des résultats plus équilibrés, et étaient notamment bien meilleurs sur les types et matériaux de toits rares comme les toits pyramidaux ou en verre. Les applications possibles de ces techniques sont par exemple la forte réduction des coûts d’annotation de données, et l’accélération du développement de modèles très performants.

Ahmed Ben Saad, doctorant du laboratoire, a présenté ces travaux à la conférence IGARSS 2021 le 15 juillet 2021. Cette conférence porte sur les géosciences et la télédétection, et réunit de nombreux intervenants académiques ou industriels comme des chercheurs de l’IGN, la Commission européenne ou l’Université de Cambridge. La conférence se déroulait en ligne et Ahmed a pu échanger avec des chercheurs du domaine et a pu repérer des travaux similaires ou complémentaires à ceux qu’il réalise avec namR. Par exemple, les travaux d’Angelica Aviles-Rivero et al. sur l’entraînement de modèles avec des annotations de qualité médiocre (ici) peuvent aider namR à mobiliser encore mieux l’open data !

Le modèle de classification des types et matériaux de toits entraîné par namR sur les données annotées uniquement a ainsi été battu par le modèle entraîné par les méthodes d’apprentissage auto-supervisé de 3 % ! Nous espérons mettre en œuvre ces méthodes dans l’ensemble de nos modèles, vous en parler très vite, et surtout améliorer encore plus nos algorithmes.

L’un des enjeux de l’identification précise des types et matériaux de toit est la rénovation énergétique. Il est important pour les gestionnaires de biens immobiliers d’avoir cette connaissance pour cibler les bâtiments à rénover en priorité notamment. D’autre part, cette connaissance est aussi nécessaire dans le cadre du déploiement d’installations solaires sur toiture.

namR optimise ses algorithmes pour massifier cette connaissance sur tout le territoire français, et s’évertue à proposer des indicateurs fiables pour optimiser la transition énergétique. De nombreuses solutions sont proposées par namR à tout acteur souhaitant s’impliquer dans la transition énergétique, sollicitez-nous !

--

--