Le « Big Data », la bonne solution pour remettre les logements vacants sur le marché?

Vous avez déjà lu des articles sur les promesses du Big Data? Mais si, vous savez, ces gigantesques bases de données, qu’on croise et qu’on recoupe, dans lesquelles on trouve toujours des corrélations. Parfois un peu flippant quand on essaie de comprendre d’où viennent les données, ou quand on voit que certains imaginent prédire ou juger sans comprendre les limites d’une corrélation, mais quand même souvent fascinant.

Croisement de données numériques, allégorie. Bon, ça se finit dans un trou noir, mais ça a quand même l’air très sérieux. Domaine public, DARPA

Quand l’idée de remettre les logements vacants sur le marché a commencé à envahir mon esprit, l’un de mes réflexes a été de me dire qu’avec un accès à des données anonymisées ou dépersonnalisées provenant de 4 ou 5 sources, mises à jour en direct, on pouvait cartographier finement la vacance du logement, cibler les opportunités de rénovation et régler le problème en 6 mois. Le genre de solution qu’on prend un malin plaisir à échafauder en ouverture de note de synthèse.


Aujourd’hui, je suis content de ne pas avoir eu ces données. Parce que je m’y serais noyé, et parce que si on a bien besoin de l’aide des machines, elles ne sont pas – encore? – les agents économiques qui font le marché immobilier. Ça, c’est nous.

Voilà pourquoi oqp.io est parti sur une piste complètement has-been pour résoudre le problème du logement vacant. Voilà pourquoi nous avons besoin de vous pour vous aider, pour nous aider.

Aller à la source

“Ça existe forcément quelque part, cette donnée…”

Il y a des tas de sources de données plutôt exhaustives, plutôt centralisées et structurées qui pourraient permettre de déterminer la vacance du logement. Allez, quelques pistes:

  • le recensement de la population, fait par l’INSEE en partenariat avec les communes. Après tout, c’est de là que sort le chiffre de 2,88 millions de logements vacants. Bon, tous les logements de France ne sont pas visités chaque année, et quand on s’intéresse un peu au sujet, on découvre que l’exercice a des limites très pratiques, les producteurs de données sont les premiers à le reconnaître.
  • le fichier des services des Impôts, FILOCOM de son petit nom. Un fichier fiscal, c’est toujours prometteur. Que voulez-vous, les organisations commes les humains ont tendance à compter avec un peu plus d’attention quand ils sont intéressés par le produit qui en résulte. Encore que. Ça ne vous est jamais arrivé de devoir repréciser aux Impôts que vous aviez déménagé et que ce qu’ils pensent encore être votre adresse au 1er janvier (la seule date qui compte) ne l’est plus depuis deux ans? On parlera plus bas du secret fiscal, mais deux ans, ce n’est pas le temps réel espéré.
  • les bases de clients des distributeurs en réseau: eau, électricité, gaz (le téléphone ça marchait encore il y a quelques années, quand on avait du mal à se passer d’un abonnement fixe à son domicile). Certains domaines sont soit très fracturés géographiquement (la base de données des relevés de compteurs d’eau recouvrant tout le territoire n’a pas l’air d’exister), soit en train de s’ouvrir à la concurrence, ce qui ne facilite pas forcément la constitution d’un référentiel unique si personne ne l’a prévu… Et même quand on a accès à des données des fournisseurs d’électricité, on découvre, comme les habitants de Vancouver l’ont fait, que les règles qui déterminent quelles données sont conservées et donc exploitables n’en font pas toujours une source pertinente, même si cela permet toujours faire un beau communiqué de presse avec des chiffres.
  • les enquêtes de terrain, à l’échelle d’un territoire avant une opération de renouvellement urbain par exemple. Sûrement les plus fiables, elles reprennent souvent les données précédentes pour constituer un échantillon et cibler un travail de terrain. Mais elles ont pour principale finalité de faire un diagnostic à la date de l’enquête, puis d’être agrégées, corrigées ou extrapolées dans un rapport produit par le bureau d’étude qui les réalise. Un outil d’aide à la décision politique, pas un outil de ciblage au niveau du logement, pas un outil de diffusion et de mobilisation citoyenne qui serait mis à jour et enrichi sur la durée.

La solution technologique

Bon, la donnée dont on rêve, complète et qualifiée, n’existe peut-être pas. Mais la promesse du Big Data, c’est aussi d’augmenter la qualité par les croisements, ou au moins de pouvoir savoir ce que l’on sait. Alors en recoupant suffisamment de données, on pourrait en déduire un sous-ensemble de données dignes de confiance. Et cibler des efforts de fiabilisation sur les résultats les plus incohérents, pour gagner en qualité sur la durée.

Oui, mais…

Mais il y a également un facteur important, pour qui n’est pas encore tout à fait certain de croire aux promesses du transhumanisme et de vivre au moins 250 ans. Comment on accède-t-on à ces données? En faire la demande aux producteurs de données. Dans le fond, on ne perd jamais rien à poser la question. À part du temps.

Protection de la vie privée, limites des techniques d’anonymisation, secret fiscal, secret industriel et commercial, dette technologique qui fait d’un export une prouesse coûteuse… Vous voyez assez vite la nature des réponses. Insistez et ajoutez une saisine de la CADA au bout de quelques mois, si on n’a pas encore reçu le courrier avec l’une de ces réponses ou si le droit ne n’interdit pas explicitement que ces données soient diffusées ou utilisées à des fins différentes de celles qui justifient leur recueil.

Bien sûr, être un citoyen motivé ne vous place peut-être pas sur le dessus de la pile des priorités, mais même pour une grande association, ou pour un ministre, ou pour un président, je parie que disposer de toutes ces données prendrait facilement 2 à 3 ans. Si quelqu’un veut relever le défi, je tope où et quand vous voulez!

Mais admettons. Que les données existent, qu’on puisse les fiabiliser et les réutiliser.

Du tactical urbanism à l’échelle

Opération ciblée sur un logement vacant à fort potentiel, allégorie.

Oui, admettons. Avec ces données fiabilisées, on pourrait faire chaque année, avec un algorithme bien foutu, une sélection de 20% de logements vacants à fort potentiel correspondant aux besoins et envies de logements. Entre les données démographiques ou économiques et l’exploitation des alertes paramétrées par les personnes qui cherchent un logement sur les sites de petites annonces, il y a de quoi faire pour les classer.

Si les 2,88 millions de logements vacants se confirment, cela ferait une sélection de 576 000 logements prioritaires, auxquels on pourrait affecter une aide conséquente. Par exemple en y consacrant une bonne part des 46 milliards d’euros que l’on a dépensé en 2014 dans la politique du logement. Un ordre de grandeur: 46 milliards, ça fait en moyenne près de 75 000€ par logement vacant prioritaire. Allez, un deuxième ordre de grandeur: un logement “Pinel” moyen coûte 20 077€ de dépenses fiscales sur la durée de la défiscalisation. Même en ne consacrant qu’une moitié de ce budget de 46 milliards, on pourrait répartir cette manne selon la taille des logements, selon leur état. Proposer un chèque aux sélectionnés. Soit les propriétaires font les rénovations avec ces aides et remettent leur logement sur le marché, soit ils payent un impôt croissant et dissuasif, soit ils vendent et le nouveau propriétaire obtient l’aide.

Bon, pour être vraiment efficace, on pourrait même choisir de laisser tomber des territoires moins prometteurs, selon comment on conçoit l’algorithme. On dira qu’on priorise ceux qui ont le plus fort potentiel. Et puis au passage, ça permettra de rationaliser les services publics, l’entretien des routes, les fermetures de classes, etc.

Bien sûr, pour être plus optimiste, on pourrait aussi, en documentant et en rendant public l’algorithme, avoir un débat démocratique sur les critères de priorisation, et laisser les machines exécuter le classement sur des critères ayant fait l’objet d’une délibération publique. On pourrait aussi utiliser l’open-data sur les données traitées et sur la sélection pour permettre un contrôle citoyen sur la machine.

On pourrait.

Sur cette question, il n’y a plus rien d’insurmontable sur le plan technique.

La politique entre coup et coût

Sur le plan politique, il y aurait certainement un coup à faire: un mandat pour mieux loger tout le monde, sans remettre en cause le droit de propriété, en faisant baisser un peu le coût de l’immobilier (en expliquant aux propriétaires pourquoi ce n’est pas grave) et en permettant de réorienter en partie le pouvoir d’achat aspiré par le logement vers des secteurs plus productifs que ceux de la gestion immobilière. Efficace, rationnel, à budget constant puis décroissant, avec des remises en causes limitées et un aspect magique du Big Data qui ne déplaira ni aux ingénieurs, ni aux décideurs, ni aux journalistes.

Sur le plan démocratique, les dernières mises en œuvre de traitements algorithmiques par les pouvoirs publics n’ont pas vraiment démontré notre capacité à exiger de réelles garanties, ou au moins une transparence minimale pour protéger les libertés publiques… Mais s’il y a des causes qui méritent que l’on piétine allègrement bien des principes, alors pourquoi pas celle du logement?

Data not found. On fait quoi, on attend?

Techniquement possible, économiquement intéressant, politiquement jouable. On peut imaginer que ça viendra. Mais faut-il y croire et attendre?

Voilà la question: dans les trois prochaines années, pensez-vous qu’un Gouvernement va mettre en œuvre une politique remettant en cause des modalités d’interventions (allocations, défiscalisation) visibles par une bonne partie de l’électorat, même s’il était démontré que cette politique ultra-ciblée, fondée sur la donnée, est économiquement efficace ?

  • Si oui, alors les données existantes seront exploitées et oqp.io se fera probablement dépasser par un outil plus efficace. Tant mieux. Il nous restera encore beaucoup à faire pour transformer les ressources en produits.
  • Si non, doit-on attendre 2 ans, 5 ans, 10 ans avant que le problème soit traité?
Ou alors estimons-nous que le sujet est suffisamment important pour que nous nous en occupions dès aujourd’hui?

Les avantages du crowdsourcing

C’est fou ce qu’un pouce peut accomplir.

L’âge du Big Data est aussi celui de la multitude. Et la multitude peut produire des données. Le crowdsourcing permet, avec des terminaux largement répandus sur des réseaux existants, de mobiliser des capteurs intelligents et de les outiller d’un service peu coûteux pour arriver à s’attaquer à des problèmes qui nous dépassent. Des capteurs intelligents pour du vrai: des humains.

Ces données seront imparfaites, certes. Lacunaires, assurément. Longues à produire, c’est sûr. Mais en 3 ans, on peut avoir constitué une donnée complète, à jour, au lieu d’attendre son hypothétique avènement.

Et surtout, le crowdsourcing, ce n’est pas juste faire appel à des capteurs intelligents. C’est mobiliser les agents économiques qui feront les décisions sur le marché dans 3 ans. Et quand on a touché des milliers d’agents économiques, qu’ils ont pris l’habitude de remarquer les petites maisons de ville à rénover partout ou les corps de ferme délaissés, qu’ils ont une idée de leur valeur économique, énergétique et sociale, qu’ils voient l’opportunité dans chaque ressource, on a changé le marché.

Le Big Data et les algorithmes sont des outils fabuleux. Que nous pourrons mettre à profit, mais qui ne doivent surtout pas nous mettre en position d’attente et de consommation: pour changer le fonctionnement d’un marché, pour nous loger mieux, pour nous loger tous, il faudra nous impliquer.

Le Big Data, c’est peut-être beaucoup plus tendance, mais la Big Participation est une meilleure solution pour ouvrir le chantier et faire une vraie différence.

Version augmentée d’un texte initialement publié sur oqp.io.