Apprendre des modèles urbains pour prédire la hauteur des bâtiments

Amandine Rey
namR
Published in
8 min readJun 11, 2021

--

Dans un contexte où l’urbanisme doit être revu pour intégrer les problématiques du changement climatique, la connaissance du parc bâti est essentielle. L’intelligence artificielle et ses acteurs ont un fort potentiel pour aider à cette compréhension. Prédire la hauteur des bâtiments : comment, et pour servir quels objectifs ?

Le 10 décembre 2020, l’article “Learning from urban form to predict building heights” (Apprendre des modèles urbains pour prédire la hauteur des bâtiments) a été publié dans la revue scientifique PLOS One. Il traite du développement de modèles visant à prédire la hauteur des bâtiments, information essentielle à la recherche de solutions d’adaptation au changement climatique au niveau de la ville.

Nikola Milojević-Dupont du Mercator Research Institute on Global Commons and Climate Change (MCC) s’est intéressé à ces questions et s’est entouré d’une équipe pour construire un algorithme de machine learning capable d’estimer la hauteur des bâtiments des villes européennes. L’équipe était constituée de ces entités : l’Université Humboldt de Berlin, l’ETH Zürich, le Potsdam Institute for Climate Impact Research (Berlin), et namR.

namR a contribué à pré-traiter les données relatives aux cinq agglomérations françaises qui ont entraîné le modèle, et à apporter des éléments d’expertise pour l’analyse de données géospatiales.

Quel est le rôle de l’urbanisme dans un contexte de changement climatique ?

L’urbanisme durable va permettre l’adaptation au changement climatique ou à en atténuer les effets. Il consiste notamment à rénover massivement pour lutter contre la précarité énergétique ou amoindrir les consommations énergétiques par exemple.

Pour planifier un urbanisme durable, il faut tout d’abord comprendre la ville, l’envisager comme un système complexe. La compréhension de ce système repose sur des données fiables et de haute précision. Elles permettront in fine de mettre en place des solutions durables et d’adaptation aux changements climatiques réalisables car fidèles à la typologie de bâti.

Ces données existent pour certaines villes ou régions sous forme de modélisations en 3D (Brandenburg, Berlin, les Pays-Bas, Frioul-Vénétie julienne, Bordeaux, Brest, Montpellier, Lyon et Strasbourg). Cependant, cette méthode est coûteuse et ne concerne pas les villes petites et moyennes qui abritent pourtant la majorité de la population européenne.

Dans la majorité des cas, les données relatives à l’urbanisme ne sont pas disponibles, soit parce qu’elles n’existent pas, soit parce qu’elles ne sont pas libres d’accès. De ce fait, il faut les reconstituer, et le machine learning a une part importante dans cette tâche.

Les informations sur la hauteur des bâtiments sont de plus en plus pertinentes pour la planification urbaine, utiles aux modèles météorologiques urbains (quelle est l’influence des bâtiments sur la météo ? et vice versa), aux analyses de l’étalement, à la planification de la résilience et à de nombreuses autres approches de planification.

Connaître la hauteur d’un ensemble de bâtiments peut aider à évaluer leur impact sur les performances thermiques de l’ilot urbain. La connaissance de la hauteur couplée à celles, par exemple, du volume ou de la surface au sol permet de faire des estimations de consommation énergétique régionales, ou d’étudier les impacts environnementaux des bâtiments.

Prédire la hauteur d’un bâtiment

Les auteurs du papier se sont aperçus que la morphologie du tissu urbain entourant un bâtiment donné est hautement prédictive de la hauteur de celui-ci. Pour construire ce modèle, ils se sont basés sur les données de construction de quatre pays européens (France, Italie, Pays-Bas et Allemagne). Sans avoir accès aux informations exactes, il est de ce fait possible de prédire des données manquantes sur les infrastructures avec une grande précision dans les résultats.

Des techniques d’apprentissage automatique ont donc été utilisées, ainsi que des études urbaines et des données d’informations géographiques collaboratives (Volunteered geographic information — VGI).

Plus précisément, les caractéristiques de la morphologie urbaine ont permis de créer un algorithme qui prédit la hauteur des bâtiments dans ces quatre pays européens.

Fonctionnement de l’algorithme

Un large ensemble de caractéristiques de forme urbaine a été créé dans un premier temps. Il utilise exclusivement des bases de données accessibles au public. De ces informations, 152 caractéristiques ont été dégagées. Elles concernent la géométrie de l’empreinte du bâtiment et de son environnement (empreintes de bâtiments, intersections de rues, segments de rue…).

Les données utilisées pour entraîner l’algorithme concernent 11,5 millions de bâtiments de 920 villes européennes. Il est à noter la disparité en termes de structures urbaines au sein de l’Europe : les zones urbanisées ont tendance à avoir des bâtiments plus hauts que les zones rurales.

L’algorithme prend en compte plusieurs échelles :

  • le bâtiment ;
  • le quartier ;
  • l’emplacement en ville ;
  • le type de ville.

Chaque échelle possède des caractéristiques qui vont affiner le modèle.

La géométrie de l’empreinte du bâtiment a une forte valeur prédictive sur sa hauteur. Parmi les autres variables incluses dans la prédiction, on peut citer le périmètre de l’empreinte ou sa convexité.

Les environs d’un bâtiment contiennent des informations importantes sur sa hauteur. Au sein d’un quartier, les bâtiments du même bloc ont tendance à être de hauteur similaire. Par exemple, les bâtiments d’une zone résidentielle sont de faible hauteur.

L’emplacement dans la ville a aussi tendance à informer sur la hauteur. Les zones denses en centre-ville ont souvent des bâtiments plus hauts notamment.

Le type de ville est aussi analysé et renseignera sur les dynamiques interurbaines (morphologie de bâtiments rencontrés, empreintes et hauteurs des bâtiments).

Les modèles de prédiction utilisés

Quatre modèles de prédiction ont été utilisés pour la conception de l’algorithme : la hauteur médiane comme référence, la régression linéaire et deux algorithmes d’ensemble arborescent, le Random Forest (forêt aléatoire) et le XGBoost (gradient boosting ou renforcement de gradient).

La distribution de la majeure partie des bâtiments est comprise entre 2 à 10 mètres, la hauteur médiane va vérifier la justesse de l’algorithme en identifiant les éventuelles valeurs aberrantes. La méthode de régression linéaire va mettre en évidence une tendance qui corrèle les valeurs entre elles. Des arbres de décision préconisent des comportements à partir de données de base. Cette méthode manquant de précision, elle est ici complétée par la méthode de la forêt aléatoire qui est efficace pour prédire des informations non disponibles. Enfin, l’apprentissage par renforcement de gradient va considérer les erreurs des autres méthodes pour perfectionner le modèle.

Valider le modèle

Valider un modèle consiste à lui fournir des données pour vérifier les prédictions au regard des résultats attendus. Pour ce faire, trois configurations ont été choisies. Elles représentent des scénarios relatifs à des applications réelles.

Lorsque la totalité des données des villes est disponible, elles sont ajoutées au modèle.

Lorsque les données sont rares, un échantillon de bâtiments de la zone est ajouté au modèle pour vérifier la fiabilité de la prédiction (en comparant les données d’entrée et de sortie des zones connues).

Lorsque les données ne sont pas disponibles (condition par défaut), le modèle va apprendre des caractéristiques pertinentes des autres configurations sans les répliquer à l’identique (overfitting). Ainsi, la prédiction de l’algorithme est appliquée à la zone, sans forcément attribuer les mêmes comportements.

Pour valider l’algorithme, l’équipe s’est limitée à prédire deux zones où existe un modèle de bâtiment 3D ouvert (Brandebourg et Berlin), en utilisant toutes les données disponibles en France, Italie, Pays-Bas et Allemagne). Ils ont validé l’approche en évaluant comment le modèle se généralise à de nouvelles zones géographiques avec des données provenant de quatre pays différents. Sur la base des analyses qui ont été faites, la prédiction peut être étendue aux régions et pays pour lesquels seules les empreintes de bâtiments OpenStreetMap sont disponibles selon eux. Cela pourrait permettre de créer une base de données d’estimations de hauteurs de bâtiments couvrant l’ensemble de l’Europe.

Résultats

Les résultats montrent que pour certaines villes, il est possible de prédire la hauteur des bâtiments dans une grande zone avec une erreur moyenne bien en dessous de la hauteur de plancher type (environ 2,5 m), sans devoir utiliser les données de terrain de cette zone ou du pays. Dans de grandes villes, l’erreur absolue moyenne (MAE) est plus importante, probablement due au nombre élevé de bâtiments hauts et inhabituels. Les résultats de la méthode de validation suggèrent que les résultats des tests sont robustes et que le modèle peut se généraliser à travers l’Europe.

L’équipe à l’origine de l’algorithme a pu identifier les caractéristiques les plus pertinentes dans la prédiction de la hauteur d’un bâtiment. Il s’agit de la superficie au sol du bâtiment, suivie du périmètre et de la longueur des murs partagés avec d’autres bâtiments.

Applications

L’objectif principal de cette étude était d’examiner dans quelle mesure il est possible d’améliorer la disponibilité de données de hauteur à jour en Europe à faible coût et sans recourir à des données propriétaires (payantes et parfois soumises à des restrictions de partage).

La précision du modèle peut déjà être suffisante pour éclairer les politiques et les études régionales pour estimer la demande énergétique d’un grand parc immobilier par exemple. Certaines applications nécessitent des résultats plus précis, comme la planification de quartier, où il est possible de mesurer la hauteur des bâtiments au cas par cas. Les résultats prometteurs de la combinaison des données générées par les citoyens et des données publiques ouvertes pour fournir des informations pertinentes pour les politiques devraient encourager le secteur public à accroître son soutien aux stratégies de données ouvertes.

La méthode peut servir de tremplin vers un modèle de parc immobilier continuellement mis à jour, ouvert et complet à la résolution des bâtiments individuels pour l’Europe.

La contribution de namR

Nous avons contribué à l’élaboration du modèle en pré-traitant les données issues de l’open data des cinq agglomérations françaises qui ont servi à entraîner le modèle. Ces données apportent des précisions sur la géométrie des villes de Bordeaux, Brest, Lyon, Montpellier et Strasbourg.

Tout au long du développement de la méthode destinée à prédire la hauteur des bâtiments, notre expertise sur l’analyse des données géospatiales nous a permis d’apporter des préconisations à l’équipe à différents niveaux (pré-traitement, features géométriques, modélisation, review de code…)

La nécessité des données en accès libre

Comme évoqué plus haut, les données librement accessibles n’existent que pour certaines collectivités, et ce panel n’est pas représentatif de la majorité des collectivités territoriales européennes. L’offre de données ouvertes reste pauvre et ce constat est d’ailleurs partagé par des figures éminentes, les députés Cédric Villani ou Éric Bothorel par exemple.

Heureusement pour les acteurs de la data comme namR, des acteurs mettent librement à disposition des données nous informant sur plusieurs pans du bâti. Par exemple, le Ministère de la Culture liste les bâtiments à proximité de patrimoine remarquable, le Ministère de la Cohésion des territoires et des Relations avec les collectivités territoriales diffuse les données cadastrales…

À partir de ces sources, nous pouvons par exemple, à partir d’une adresse, déterminer si un bâtiment est à proximité d’un patrimoine remarquable. Cette information est importante puisque certains travaux ne peuvent être faits sur des bâtiments proches de patrimoine classé.

Pour cet exemple, les données sont disponibles, mais ce n’est pas toujours le cas. Pour avoir une connaissance fidèle du bâti, il est parfois nécessaire de faire appel à des techniques d’extrapolation. En l’occurrence, le machine learning est utilisé pour prédire les hauteurs de bâtiments pour des territoires où aucun modèle 3D dédié n’existe actuellement.

Pour le territoire français, les données de hauteur sont publiées en partie par l’IGN même là où les modèles 3D ne sont pas disponibles (les données ne sont pas exhaustives). Depuis 2021, ces données sont disponibles en open data, ce qui n’est pas le cas pour d’autres pays européens.

À propos de PLOS One

PLOS One est une revue de publications scientifiques en accès libre qui traite notamment de ces disciplines : biologie, médecine, biologie computationnelle, génétique.

Il fonctionne par la revue par les pairs, ce qui implique que les publications font l’objet de relecture par des experts du domaine pour lequel la contribution est soumise. D’autre part, les expériences et avancées scientifiques publiées dans le journal ont pour vocation à être répliquées par des entités indépendantes entre elles pour valider et / ou corriger les modèles.

Toutes les données publiées et utilisées dans l’article sont en open data.

--

--