Sous la surface des IA génératives

Urban AI
Urban AI — FR
14 min readMar 2, 2023

Par Maxence Naudin

Journal d’une expérimentation mêlant Open AI, Italo Calvino et conscience politique

Jeudi 2 février 2023, fin de matinée

Je suis avec mon équipe dans le coworking à Bastille où nous passons quelques jours par semaine. Pour un projet que je développe, je cherche quelques images afin d’illustrer des slides et un site web. Tâche ardue, car pour l’Institut de la Transition Foncière, je souhaite représenter quelque chose, qui à mes yeux, n’existe pas vraiment : une ville où l’urbanisation a réellement su préserver les sols naturels, une utopie de « gestion durable des sols » en milieu urbain. J’avais déjà lu quelques posts LinkedIn sur l’utilisation des derniers outils de génération d’images, dont DALL-E, logiciel édité par Open AI. J’effectue de premiers tests sur DALL-E : « Une ville sur pilotis, au-dessus d’un sol luxuriant où passe une rivière ».

Source : DALL-E

Peu convaincant, DALL-E me propose des images qui pourraient plutôt être celles de villages de pêcheurs en Asie ou en Amérique du Sud, surplombant une rivière boueuse. Je tente autre chose : « Une vue lointaine d’une ville sur pilotis, au-dessus d’un sol luxuriant où passe une rivière bleue. La ville est de style européen. ».

Source : DALL-E

Nouvelle déception, le résultat pourrait me servir à illustrer une ville médiévale fantaisiste, type Donjons & Dragons. Devant mon incapacité à décrire précisément ce que je veux à DALL-E, je décide de passer par l’autre objet médiatique d’Open AI, ChatGPT, une interface conversationnelle où le modèle d’intelligence artificielle (Large Language Model) se met au service de son interlocuteur humain pour lui apporter des réponses textuelles cohérentes. J’avais déjà vu des utilisateurs montrer comment ils demandaient à ChatGPT de les aider à générer des commandes (en anglais, prompts) pour d’autres logiciels. Je décris rapidement mon projet à ChatGPT, en lui demandant de m’aider à générer les bons prompts pour DALL-E. ChatGPT prend donc le relai et me fournit plusieurs propositions pour illustrer des environnements urbains où notre rapport aux sols et à la nature aurait profondément changé :

« Créez une image de l’avenir de la ville, avec des bâtiments futuristes enveloppés de jardins verts et d’arbres en trois dimensions, montrant comment nous pouvons coexister en harmonie avec la nature. ». Source : DALL-E
« Créez une image de l’avenir de la ville, avec des bâtiments enveloppés de jardins verts et d’arbres en trois dimensions, montrant comment nous pouvons coexister en harmonie avec la nature. Les bâtiments peuvent être des maisons ou des immeubles. L’image est d’esthétique réaliste et épurée. ». Source DALL-E
« Imaginez un panorama d’une ville avec des bâtiments modernes et des jardins publics luxuriants, montrant comment l’urbanisation peut être équilibrée avec l’environnement. L’esthétique est épurée et réaliste. ». Source: DALL-E

Une collègue me fait remarquer à propos de la dernière série : « On dirait des perspectives 3D de promoteur ! » J’acquiesce, sans prendre pleinement conscience de la justesse de sa remarque, une nouvelle idée vient de m’arriver.

Jeudi 2 février 2023, soir

J’avais beaucoup apprécié m’amuser avec ChatGPT et DALL-E à essayer d’illustrer des imaginaires, mais j’étais limité par le matériau de base : ma propre imagination. Pourquoi alors ne pas puiser à une des meilleures sources d’inspiration que je connaisse sur les villes et leurs imaginaires : Les Villes invisibles d’Italo Calvino.

Dans cet entretien fictif entre Kublaï Khanh et Marco Polo, l’explorateur décrit à l’empereur cinquante-cinq villes imaginaires, réparties en 11 thèmes au titre évocateur : « Les villes et la mémoire », « Les villes et le regard », « Les villes et la mort », … La symbolique de la révélation de l’invisible est au cœur de l’ouvrage : Kublaï Khanh dépend des récits de Marco Polo pour connaître les villes de son empire, territoire si vaste qu’il ne peut le parcourir.

Je ne suis pas le premier à vouloir illustrer Italo Calvino, loin de là. Chaque réédition ou traduction du roman est l’occasion pour un artiste d’essayer d’en saisir l’esprit en images. Je découvre ainsi la traduction française de Jean Thibaudeau, édition pour bibliophiles (Les Amis du Livre contemporain, 1993) qui affiche des gravures de Gérard Trignac. Sur son site web, la ville de Besançon met ainsi en lumière certaines de ses gravures, aux côtés des extraits du texte correspondant :

Source : Les villes invisibles. Italo Calvino illustré par Trignac, Patrimoine numérisé de Besançon

Plus récemment, le département d’architecture de l’université de Nicosie proposait à ses étudiants du cours « AI & Computational Design » de produire des images à partir du livre d’Italo Calvino. Me demandant ce que les deux outils d’Open AI combinés pourraient produire à partir du même extrait que celui mis en gravure par Trignac, je lance l’expérimentation.

ChatGPT me fournit un prompt, en anglais. Straight to the point.

« Create an image of Penthésilée, a sprawling city with low-lying shores and a chaotic urban sprawl, as described in Italo Calvino’s text, with drab buildings, unkempt fields and corrugated rooftops. »

Capture d’écran d’une génération d’une série d’images sur la base d’un prompt inspiré d’Italo Calvino. Source: DALL-E

Ces dernières ne sont pas très enthousiasmantes, ce qui n’est pas étonnant puisque Penthésilée est issue de l’avant-dernière catégorie de villes décrites par Calvino, « Les villes continues », qui, vers la fin de l’ouvrage, forment une critique à peine voilée de l’urbanisation moderne. Un imaginaire négatif et sombre n’en reste pas moins un imaginaire.

Il y a une raison pour laquelle Les Villes invisibles se prête aussi bien à l’exercice de l’illustration : les textes d’Italo Calvino y sont particulièrement poétiques et évocateurs. Mais il ne s’agit pas d’une poésie hors du temps, Les Villes invisibles nous invitent à repenser ce qui fait la ville et l’urbanité contemporaine. Comme le développe Clément Lévy, « le lecteur y est deux fois dépaysé. Une première fois parce que ces villes le plongent dans un univers mystérieux et séduisant, et plutôt bien connu : c’est l’univers des Contes des mille et une nuits. Une seconde fois, parce que ces villes aux noms orientaux comme Zaira, Zobeide ou Bersabea ont pourtant de nombreux points communs avec les environnements urbains dans lesquels nous vivons aujourd’hui. » [1]

J’en reviens à mon objectif initial : donner à voir le fonctionnement d’un processus de création reposant sur les derniers outils d’Open AI, sur la base d’un matériau particulièrement riche par sa capacité d’évocation.

Source: Auteur

Je reproduis le même processus à partir d’une traduction anglaise du livre, afin de limiter les interférences de traduction entre le livre, ChatGPT et DALL-E. Parfois, les prompts donnés par ChatGPT donnent lieu à des modifications manuelles avant de les soumettre à DALL-E. J’essaye de me limiter à des altérations mineures : en particulier lorsqu’il s’agit d’incompatibilité avec les conditions d’utilisation du générateur d’images (« golden cock » a été remplacé par « golden rooster » pour éviter tout malentendu, les « naked women », thème récurrent chez Calvino, ont été rhabillées en « beautiful women »). Mais il s’agit bien d’un exercice de co-construction, et je suis parfois amené, sans pouvoir m’en empêcher, à reprendre moi-même des phrases que j’estime maladroites ou incompréhensibles en vue de produire des images.

Je génère des illustrations à partir d’une quinzaine de chapitres du livre, chaque chapitre donnant lieu à une série de 4 images. Certaines me paraissent très réussies, y compris du premier coup. Ces images me parlent. D’autres, au contraire, démontrent les faiblesses de DALL-E (présence de caractères scripturaux incohérents sur les images, visages humains particulièrement dérangeants, …) ou plus largement du processus, c’est-à-dire la capacité à traduire l’essence d’un chapitre de Les Villes invisibles dans une commande de quelques dizaines de caractères.

Capture d’écran d’une génération d’une série d’images sur la base d’un prompt inspiré d’Italo Calvino. Source: DALL-E

Une sélection, comprenant les images ainsi que les prompts associés, issue de différents thèmes de Calvino (« Les villes et la mémoire », « Les villes et le désir », …) est accessible ici : https://labs.openai.com/sc/XY9LL0fg979KYBWbyukF31W6

“An illustration of the city of Diomira on a September evening, showing its beauty, with the sixty silver domes, bronze statues, lead-paved streets, and crystal theater, along with the golden rooster on a tower, as well as the feeling of envy experienced by someone who believes they have lived this evening before and were happy.” Source: DALL-E

Samedi 18 février, fin d’après-midi

Une fois l’enthousiasme de l’expérimentation — et de la génération d’image pour quelqu’un qui ne sait pas dessiner — retombé, une question importante se pose : comment décrypter ce qui s’est formé sous mes yeux ? N’étant familier ni avec les modalités de fonctionnement de DALL-E, ni avec la base de données sur laquelle l’outil a été entraîné, je suis confronté à une « boîte noire ». La même commande donnée deux fois de suite génère des résultats différents : ces résultats ne sont ni prédictibles, ni reproductibles.

Dans un récent article pour Urban AI, Karla Saldaña Ochoa montre comment une IA générative spécialisée permet de faire émerger les attentes des usagers, sous la forme d’une forme de « nuage d’inspiration », matérialisée ensuite par une image d’ambiance.

C’est tout l’inverse pour DALL-E : mon objectif de révéler l’invisible des villes et imaginaires urbains se heurte devant l’œuvre finie, à cette incompréhension du processus de mise en image.

Pourtant, une intuition persiste : le corpus d’images sur lequel DALL-E a été entraîné doit bien vouloir dire quelque chose de nous en tant que sociétés, et de nos manières de représenter les villes.

C’est à ce moment qu’il nous faut revenir à la remarque faite par ma collègue concernant mes premiers tests sur la « ville en harmonie avec la nature ».

En effet, faire de la génération d’images à partir de textes d’Italo Calvino est un geste plutôt innocent. Une démarche vaguement guidée par une recherche esthétique à propos d’un texte inspirant.

Mais, ce faisant, j’ai testé un processus simple que je vois déjà mis en application autour de moi dans l’écosystème start-up : la production à la chaîne de contenus destinés à nourrir des articles de blogs, des posts LinkedIn, des pages web, … autant de supports de l’économie de l’attention.

« On dirait un bâtiment de promoteur »

Une idée partagée dans le milieu des architectes et des chercheurs en sciences humaines et sociales est que la financiarisation de la fabrication urbaine (comprise dans le thème plus large de « ville néolibérale ») conduit à des formes génériques de la ville [2]. La recherche d’efficacité à toutes phases du projet, les règles d’optimisation des surfaces, les arbitrages sur les coûts des matériaux font qu’il est effectivement aisé de reconnaître un « bâtiment de promoteur ».

Mais au-delà des aspects matériels de la ville générique, les promoteurs immobiliers, et les architectes qui produisent pour eux des perspectives 3D d’immeubles et de nouveaux quartiers, ne sont-ils pas aujourd’hui des producteurs importants d’une iconographie qui conduit à imposer un certain imaginaire de l’urbain ? Quel est le poids de cette iconographie omniprésente sur notre capacité à imaginer ce qui pourrait être autrement ?

On ne peut qu’inviter chacun à effectuer une recherche rapide sur son moteur de recherche préféré et à s’interroger sur les images qui sont proposées lorsque l’on demande simplement « ville durable ».

Capture d’écran d’une requête « ville durable » sur un moteur de recherche. Source : Qwant

Dans une perspective épistémologique qui m’a fortement influencé, l’urbain est décrit comme « processus matériel et symbolique où les espaces et les temps sont continuellement imaginés, racontés, négociés et projetés par les gens qui les habitent, par ceux qui les conçoivent et les administrent dans un jeu de contraintes conjoncturelles (matérielles, politiques, économiques, etc.). » [3]

À n’en pas douter, la ville durable des moteurs de recherche est une ville dense, où les transports en commun, les toitures et terrasses végétalisées, les énergies renouvelables ont la part belle. Sans mettre en question le fait que ces différents éléments puissent être ou non durables, il convient de s’interroger sur la manière dont des logiciels de génération d’images, puisant leur inspiration dans les images existantes, peuvent véhiculer, reproduire, renforcer, ou au contraire dénaturer ce qu’on peut considérer comme des imaginaires dominants. À plus forte raison si les opérateurs qui utilisent ces outils se contentent de commandes simples et de « copier-coller » issus de ChatGPT.

Je peux dès lors tirer un premier constat de cette démarche : produire des images de villes et « d’environnements urbains » n’est pas un geste neutre.

Samedi 25 février, matin

Après l’enthousiasme de l’utilisateur, satisfait par une interface plaisante, des résultats rapides et parfois pertinents, excité par les perspectives d’application futures, vient le doute du citoyen : « Pour autant que je puisse faire ces choses, faut-il les faire ? »

C’est le second constat qui m’est venu, à froid : utiliser les outils d’Open AI n’est pas un geste neutre non plus.

Les Generative AI, en particulier celles qui se sont lancées bruyamment auprès du grand public, font en effet l’objet de nombreux débats, souvent occultés par l’effet de nouveauté. Pour celles qui génèrent des images (DALL-E, mais aussi Midjourney, Stable Diffusion, entre autres), la question des droits d’auteur est ainsi posée à la fois :

  • Sur la propriété de l’output : aujourd’hui, Open AI cède les droits du résultat des requêtes à l’utilisateur, mais qui peut dire quelles seront les conditions si Open AI conquiert l’ensemble du marché et arrive à une position (quasi)monopolistique — ce qui est, rappelons-le, la finalité d’une start-up.
  • Sur la propriété de l’input : puis-je m’attribuer les résultats d’un travail algorithmique directement tiré d’extraits d’un auteur comme Italo Calvino (même si je le fais passer par « la moulinette » ChatGPT) ? À quelles conditions ?
  • Sur la propriété de tout ce qui sert le processus : en l’occurrence, les droits d’auteur éventuels sur toutes les images qui ont servi à l’entraînement de l’algorithme sont-ils identifiables ?

Outre les droits de propriété intellectuelle, se pose également la question de l’empreinte environnementale de ces solutions. Si on pense immédiatement à l’énergie dépensée pour l’entraînement des algorithmes, qui nécessite de leur faire ingérer une quantité astronomique de données, il ne faut sans doute pas non plus oublier les effets indirects sur des usages numériques qu’on cherche à accélérer (au sens de Hartmut Rosa) [4].

Sans nécessairement rejeter en bloc la base d’innovation sur laquelle est fondée, chaque cas d’application concrète des technologies Large Language Models devrait devoir faire la preuve de son utilité sociale au regard de sa contribution à l’augmentation de l’empreinte du numérique. Comme ce devrait être le cas de toute nouvelle application technologique, pourrait-on ajouter.

Affiche américaine exaltant le productivisme pendant la Seconde Guerre Mondiale. Source : Wikipedia

Mais l’impact de ces technologies n’est pas simplement environnemental. Leur potentiel de disruption est bien plus large, sociétal, voire anthropologique. Le philosophe Gaspard Koenig s’est ainsi fendu récemment d’une tribune à charge, sur le plan épistémologique, contre ChatGPT, le qualifiant de « régression dans la production de connaissance » [5]. Il prend ainsi l’exemple de Wikipedia, modèle décentralisé reposant sur la citation des sources et la transparence dans les débats qui mènent à la construction des connaissances. En symétrie parfaite, ChatGPT est une « boîte noire » centralisée, dont seule une poignée d’initiés connaissent les mystères, et pour laquelle, déjà, on voit émerger des offres d’emploi de prompt engineers, c’est-à-dire des femmes et des hommes sachant murmurer à l’oreille des IA pour en tirer des résultats exploitables.

Chaque innovation technologique suscite un empressement à faire émerger de nouveaux usages, et par extension une nouvelle économie. Le cas des Generative AI n’est pas une exception, elles viennent prendre la place du Metaverse dans la bulle médiatique. Mais, à la différence du Metaverse, sujet pour lequel Meta semble peiner à attirer des utilisateurs, les Generative AI et Open AI en particulier ont déjà réussi à créer un début d’adoption, en plus du « bruit » médiatique. Plus immédiat, plus simple à comprendre en apparence, moins engageant que se créer un compte sur Horizon Worlds [6], ChatGPT bénéficie d’un des lancements les plus rapides jamais vus, en se fondant essentiellement sur le bouche-à-oreille, véhiculé entre autres par tout un écosystème d’influenceurs LinkedIn [7].

Dans son article « Sciences Po a eu raison d’interdire ChatGPT » [8], le sociologue Dominique Boullier dénonce « le forçage du débat public sur l’IA par l’offre gratuite de conversation avec ChatGPT [qui] semble abaisser toute vigilance quant à l’opération marketing ainsi en cours qui vise à promouvoir une adoption de fait au nom de l’Innovation indiscutable ». La notion de forçage est importante, puisqu’elle décrit la stratégie adoptée par Open AI, au détriment de ses concurrents pour prendre toute la place disponible dans l’espace public, et ainsi préempter le débat. Ce faisant, Open AI joue à un jeu risqué, puisque si d’autres comme Google n’avaient pas encore sorti d’offre similaire, ce n’était pas par manque d’intérêt pour le sujet mais bien par prudence : les IA conversationnelles sont des choses fragiles et ont déjà été détournées par des utilisateurs malicieux ou carrément malintentionnés [9].

En cela, on peut considérer qu’Open AI, en appliquant des méthodes cavalières des start-up qui ont tout à gagner, et rien à perdre, contribue involontairement à une révélation de l’invisible : par le bruit médiatique que ses solutions entraînent, et leurs imperfections qui les ouvrent à de nombreuses attaques, elles ouvrent une discussion plus large sur des choix de société vis-à-vis des nouvelles technologies et du progrès en général.

Dominique Boullier souligne l’importance de protéger nos espaces mentaux, de plus en plus assiégés par le développement de l’économie de l’attention. Était-il franchement nécessaire que je passe par ChatGPT pour écrire des prompts sur Les Villes invisibles ? Sans doute pas. Le temps que j’ai gagné en déléguant à ChatGPT l’analyse textuelle et la restitution synthétique de ce qui fait l’essence de la poésie d’Italo Calvino a-t-il été réinvesti dans un meilleur projet ? J’en doute également. Ai-je manqué une occasion de profiter d’un génie littéraire et d’un temps privilégié pour moi-même ? Assurément.

En conclusion, en faisant moi-même un article sur ChatGPT et DALL-E, ne suis-je pas en train de jouer naïvement le jeu d’Open AI et de contribuer à sa campagne marketing ? Les lecteurs qui auront fait l’effort d’aller jusqu’au bout de l’article seront en mesure de le déterminer.

Notes

[1]: Clément Lévy. Dislocation et déterritorialisation dans Les Villes invisibles d’Italo Calvino. Revue des Sciences Humaines, 2010, 300, pp.55–69. ffhal-00956907f

[2]: Voir par exemple : « La ville générique néolibérale ne répond plus à nos besoins essentiels », entretien avec Michel Lussault, géographe, AMC Architecture, 14 janvier 2022

[3]: Projet scientifique du Laboratoire Architecture Anthropologie, 2014 https://www.laa.archi.fr/spip.php?page=print_articles&id_article=37

[4]: Hartmut Rosa, Aliénation et accélération. Vers une théorie critique de la modernité tardive, La Découverte, coll. « Théorie critique », 2012, 154 p., ISBN : 978–2–7071–7138–2.

[5]: Les Echos, La faillite épistémologique de ChatGPT, Libre propos par Gaspard Koenig, 22 février 2023

[6]: Le jeu vidéo social à vocation de « Metaverse » édité par Meta

[7]: Preuve empirique de cette performance dans l’adoption par Open AI : l’auteur qui se qualifierait lui-même rapidement de techno-critique s’est empressé d’aller jouer avec DALL-E et ChatGPT.

[8]: Analyse Opinion Critique, Sciences Po a eu raison d’interdire ChatGPT, Dominique Boullier, 7 février 2023

[9]: On se rappelle le chatbot Tay de Microsoft, qui après une exposition au grand public sur Twitter en 2016, s’était transformé en alt-right troll et avait dû être retiré en urgence.

À propos de l’auteur

Maxence Naudin est responsable innovation au sein du groupe immobilier ICADE. Diplômé d’HEC Paris et de l’ENSA Paris-la-Villette, il fait partie des co-auteurs d’un ouvrage collectif sur la préservation des sols vivants dans l’aménagement du territoire, La Transition Foncière, à paraître en mai 2023 aux Editions de l’Aube. Ses opinions n’engagent que lui.

--

--

Urban AI
Urban AI — FR

The 1st Think Tank on Urban Artificial Intelligences