DALL·E: die Künstliche Künstlerische Intelligenz in Aktion

Künstliche Intelligenz, die versteht und kreiert

Merzmensch

Follow

Published in

InterMERZ

15 min readApr 30, 2022

--

Image created with DALL·E by OpenAI // Copyright: OpenAI // generated by Author

Update: seit September 2022, DALL-E ist zugänglich ohne Warteliste.

Das Jahr 2021 begann mit mehreren KI-Meilensteinen. OpenAI veröffentlichte zwei multimodale Ansätze: DALL-E und CLIP, mit der Fähigkeit zur fotorealistischen Text-Bild-Übertragung (ich habe über diese Auswirkungen geschrieben).

Mithilfe der Textaufforderungenen (“prompts”) konnte DALL-E überzeugende und fast fotorealistische Bilder erzeugen:

Der berühmte Avocado-Stuhl (Prompt: ”an armchair in the shape of an avocado [ein Sessel in Form einer Avocado]”), Image by DALL·E, OpenAI, screenshot by the Author

Während DALL-E (Text-zu-Bild) noch in der internen Forschung von OpenAI sich befand, wurde CLIP der Welt als Open-Source zur Verfügung gestellt. Dieses neuronale Netzwerk, das “effizient visuelle Konzepte aus natürlicher Sprachfassung lernt”, wurde von vielen Künstlern und Entwicklern für verschiedene visuelle Modelle verwendet. Sie verbanden es mit StyleGAN2, VQGAN und anderen Ansätzen, die dabei halfen, Zero-Shot-Bilder (ohne Referenz) zu erstellen. Ein großes Lob gilt für Advadnoun, den Pionier dieser Bewegung). In dieser stets aktualisierenden Liste auf Reddit finden Sie mehr als 70 Google Colab Notebooks (interaktive Implementierungen von Repositories, die direkt in Ihrem Browser ausgeführt werden können — auch ohne Python-Kenntnisse).

Der Arbeitsablauf (die Text- oder Bildeingabe erzeugt ein neues Bild) war ähnlich wie bei DALL-E, wenn auch mit einem anderen Ansatz, und mit ganz anderen Ergebnissen: nicht fotorealistisch, sondern eher “Träume von Maschinen” darstellend, wie bei Google Deep Dream, aber mit ganz neuen visuellen Motiven:

oder animiert, mit dem Einsatz von VQGAN+CLIP:

By author

Ich werde in diesem Artikel nicht auf Disco Diffusion und Pytti als absolut atemberaubende CLIP-basierte Implementierungen eingehen (sie verdienen eine gesonderte Betrachtung). Aber trotzdem dachten alle stetig an DALL·E, als einen kreativen Allrounder.

Sehnsucht nach DALL·E, und seine Klons…

Letztes Jahr erschien ein DALL·E-Klon, der in Russland entwickelt wurde (ich habe ihn hier untersucht): ruDALLe. Die russischen Forscher versuchten, die Architektur des OpenAI-Ansatzes nachzubilden. Aber da der Original-Transformer von DALL·E nicht zugänglich war, konnten sie nur halbwegs überzeugende (wenn auch immer noch interessante) Ergebnisse erzielen.

Avocado Armchair by ruDALLe, screenshot by the Author

Ein kritischer Nachteil lag nicht nur in den nur halbwegs realistischen Bildern, sondern auch in der Unfähigkeit von ruDALLe, metaphorische Bildsprache zu beherrschen. Bei komplexen und abstrakten Aufforderungen wie “Nostalgie” oder “Erinnerungen an ein früheres Leben” hat ruDALLe bloss Buchtitel nachgebildet (auf welchen das russische Model wohl übertrainiert war).

Prompt: Remembrance of the nostalgia, a surrealist painting by Dalí, created by ruDALLe, screenshot by the Author

In einigen Fällen konnte man sogar sehen, was im Trainingsdatensatz von ruDALLe enthalten war:

iStock Watermarks, screenshot by the Author

Dieser Ansatz wurde auch für Looking Glass von AI_curio verwendet, eine ruDALLe-basierte Neuinterpretation eines Bildes auf der Suche nach “der gleichen Stimmung”. Hier sind mehrere LookingGlass-Variationen meines Userpics:

On the left: my userpic / on the right: LookingGlass variations of this image

Begegnungen mit dem originalen DALL·E

Wie ihr aus unserem Artikel über Codex wisst, sind wir seit dem GPT-3-Release ein kleines Team von OpenAI Community Ambassadors: wir helfen Benutzern und Entwicklern, sich in den KI-Lösungen zu orientieren und ihre Bedürfnisse und Wünsche an OpenAI zu kommunizieren. Dies ermöglicht es uns, die neuartigen OpenAI-Ansätze hautnah zu erleben, die noch nicht öffentlich verfügbar sind.

Als Botschafter hatte ich Zugang zur ersten und dann zur zweiten Iteration von DALL·E und konnte das erste Modell testen.

Meine erster Prompt in der ersten Iteration war:

Mona Lisa is drinking wine with da Vinci [Mona Lisa trinkt Wein mit da Vinci]

Die Generierung der Bilder dauerte etwa 60 Sekunden, und das war das Ergebnis:

Image, created by the initial DALL-e, photo by author

Dieses kleine 256x256 Bild hatte es in sich. Anstelle der ikonischen lächelnden Dame, die einer mit einer traditionellen da Vinci-Figur zuprosten würde, sehen wir hier eine Reflexion über den kunsthistorischen Diskurs, ästhetisch perfektioniert: La Gioconda als Spiegelung im erhobenen Glas (des Maestro?). Ein Selbstporträt?

Ein weiteres Ergebnis meines Prompts, das durch seine emotionale Überladung überzeugt:

Teddy Bear on the beach in the sunset [Teddybär am Strand im Sonnenuntergang]

Auch komplexe Prompts lieferten interessante Resultate:

Remembrance of nostalgia, surrealist painting by Dalí. [Erinnerung an die Nostalgie, surrealistisches Gemälde von Dalí]

**Remembrance of the nostalgia, surrealist painting by Dalí**, photo by author

Auch DALL·E ist meinen Wünschen direkt gefolgt:

A hammer, a book and a bottle on a wooden table. [Ein Hammer, ein Buch und eine Flasche auf einem Holztisch]

Mein Favorit war “Lampe in Form einer Schnecke”:

Dieser erste DALL·E war bereits sehr leistungsfähig und folgte voll und ganz den Vorgaben von Paper, hatte aber immer noch seine Grenzen in Bezug auf Größe und kreative Kapazität. Aber das DALL·E-Team arbeitete hart an seiner Entwicklung — und so …

DALL·E 2 betritt die Bühne.

Im April 2022 wurde schließlich DALL·E 2 vorgestellt: Diese vollständig überarbeitete Version arbeitet mit CLIP und GLIDE (Guided Language to Image Diffusion for Generation and Editing) und liefert verblüffende Ergebnisse.

Ich freue mich, endlich meine Beobachtungen und Einblicke in die Arbeit mit diesem System mit Ihnen zu teilen. Eine der wichtigsten Aufgaben besteht darin, die kreative Zusammenarbeit zwischen Mensch und Maschine zu verbessern.

Die erste DALL-E-Implementierung hatte einige Parametereinstellungen, wie wir sie von GPT-3 kennen, z. B. Temperatur. Die aktuelle Benutzeroberfläche von DALL-E 2 ist (auch heute noch) spartanisch: nur eine Zeile zur Eingabe des Prompts.

DALL·E interface (screenshot by author, 2022.04.15)

Nichtsdestotrotz, mit diesen Ergebnissen werden Sie bereits überwältigt sein.

Die wichtigsten Merkmale von DALL-E 2 sind

hochauflösende Bilder (1024x1024)
schnelle Generierung: es dauert etwa 30 Sekunden für eine Serie von 10 Bildern
Inpainting (Übermalungsfunktion)
Variationen eines Bildes

Zuallererst: Wer ist Eigentümer der von DALL·E generierten Bilder?

Im Falle von GPT-3 ist der Benutzer, der einen Text erstellt, der Eigentümer dieser besonderen Inhalte und kann sie auch für kommerzielle Zwecke nutzen und verwenden.

Bei DALL·E 2 ist das anders, und Sie erhalten folgende Meldung, wenn Sie sich zum ersten Mal an das System wenden.

Also kein NFT. Es handelt sich um ein umfassendes, gemeinschaftliches Forschungsprojekt, und alle Nutzer, die an diesem Projekt arbeiten, verbessern es mit ihren Beiträgen. Sie können die Bilder für Ihren persönlichen Bedarf verwenden; Sie können sie für nicht-kommerzielle Online-Publikationen verwenden (sofern sie den OpenAI Richtlinien entsprechen). Sie können sie als Eisbrecher bei Schreibblockaden oder als Brainstorming für visuelles oder textuelles Geschichteschreiben verwenden. Sie können sie als Proof of Concept verwenden, um Ihrem Designer mitzuteilen, was Sie sich besser vorstellen können.

Es ist eine digitale Muse!

Das ist allerdings nur für den Moment. OpenAI arbeitet kontinuierlich an den Richtlinien und Anwendungsfällen. Aber für den Anfang ist dies ein kreatives Community-KI-Experiment.

Und für die Krypto-Künstler unter uns, die KI verwenden: es gibt so viele andere Ansätze, aber bitte beachten Sie immer die Richtlinien und AGBs der jeweiliger Entwickler, wenn Sie deren Lösungen wirklich für NFT verwenden möchten.

Mona Lisa trinkt Wein mit Da Vinci

Dies war mein erstes DALL·E 2 Prompt, und für das zweite Modell habe ich mit demselben Modell debütiert:

Mona Lisa Drinking Wine with Da Vinci

Beachten Sie den Fokus auf das Glas; beachten Sie das Lächeln der Mona Lisa. Und beachten Sie den horizontalen Pegel der Flüssigkeit im Glas. Ich nehme an, DALL-E weiß bereits, wie die Gläser (einschließlich Wein) aussehen. Auch wenn die Hand, die das Weinglas hält, ein paar Patzer aufweist — sehr überzeugend.

Und hier beginnt meine ganz persönliche Reise. Mich interessiert eine KI nicht, die meinen folge genau meinen Anweisungen präzise folgt, um beispielweise Folgendes darzustellen…

One blue marble, 2 books and a glass with water on the table [Eine blaue Murmel, 2 Bücher und ein Glas mit Wasser auf dem Tisch]

Denn DALL-E 2 macht das perfekt:

*One blue marble, 2 books and a glass with water on the table /* Image created with DALL·E by OpenAI // Copyright: OpenAI // generated by Author

Mein Hauptaugenmerk — und meine Obsession — ist die Frage, inwieweit KI die menschliche Ästhetik, versteckte Semantik und das Geschichtenerzählen verstehen kann. Ob KI kreativ sein kann? (Spoiler: ja, sie kann).

Aber zuerst: Was kann DALL-E sonst noch?

Variationen.

Das Modell kann Variationen des bereits erstellten Bildes erstellen. Für mein obiges Mona Lisa-Bild habe ich verschiedene Variationen erstellt:

Interessanterweise erhält man verschiedene Gläser, aber immer noch mit einem horizontalen Flüssigkeitsstand, wenn man das ursprüngliche Bild mit Inpainting bearbeitet (mehr darüber — weiter im Text).

Aber DALL·E kann noch mehr.

Das folgende Bild wurde mit dem Prompt erstellt

The truth about the beginning of the world. [Die Wahrheit über den Anfang der Welt]

Und dazu gibt es noch weitere Varianten:

Bei den Variationen wendet das Modell CLIP an, um das Ausgangsbild zu “beschreiben” und eine Reihe von Bildern entsprechend der Bildbeschreibung zu rendern. Wir sehen den Globus, die Lupe und die Karten in allen Bildern, nur in unterschiedlichen Zusammensetzungen. Die ursprüngliche Aufforderung “Die Wahrheit über den Anfang der Welt” ist nicht mehr relevant: Die eigentliche Aufforderung besteht aus Bildaufforderung + Beschreibung (die in der DALL·E-Oberfläche nicht sichtbar ist).

Eine weitere Variante wurde durch Hochladen eines Bildes erstellt (eine experimentelle Funktion in DALL·E). Für das Originalbild habe ich mein Userpic verwendet:

Wie Sie sehen, hat DALL-E erkannt:

eine Spiegelkugel
ein menschliches Wesen mit einer Kamera
ein Gebäude, blauer Himmel und Bäume im Hintergrund
spiegelnde Reflexion

Alle diese Elemente wurden in der Variationsserie reproduziert.

Inpainting

Inpainting mit textueller Eingabeaufforderung wird bereits in GauGAN2 oder dem ProsePainter (von Artbreeders Entwickler) verwendet. Es handelt sich dabei um ein mächtiges Werkzeug: Indem man bestimmte Bereiche eines Bildes auswählt und mit Textanweisungen versieht, lässt man DALL-E die gewünschten Motive in die markierten Flächen des Ausgangsbildes “einmalen”.

Dies ist möglich mit der Aufforderung

A punk raising hand with a beer bottle [Ein Punk hebt die Hand mit einer Bierflasche]

angewendet auf das berühmte Gemälde von Caspar David Friedrich Der Wanderer über dem Nebelmeer (1818)

Left: Wanderer above the Sea of Fog (1818) Public Domain / Right: marked areas

Modified Image created with DALL·E by OpenAI // Copyright: OpenAI // generated by Author

Kurz gesagt, wird es Teile von Bildern auf bestimmte gewünschte Weise transformieren.

Beobachtungen

Wenn wir mit DALL·E experimentieren, können wir bestimmte Stärken des generativen Modells beobachten. Hier sind nur einige von ihnen.

Die größte Stärke von DALL·E ist, dass es Ihren Anforderungen folgt. Natürlich gibt es aus Sicherheitsgründen einige Einschränkungen (kein Hass, kein Chauvinismus, usw. — sei nett, schade anderen nicht).

Hier sind einige perfekte Ergebnisse eurer Prompts.

A cat with a blue hat [Eine Katze mit einem blauen Hut]

DALL·E wird ein definitiv bestens als Meme-Generator geeignet sein.

A cat with angelic wings [Eine Katze mit Engelsflügeln]

Zu viel Katzeninhalt für heut…

Faust und Mephisto

Betrachte diesen Dialog und die Verschmelzung zwischen dem Meister und dem Teufel in ihrem Pakt. So hat Goethe ihre Beziehung gemeint.

A mindmap wall with photos and notes in a room of a private detective. [Eine Mindmap-Wand mit Fotos und Notizen in einem Zimmer eines Privatdetektivs.]

Chaotischer Noir-Raum, kalt, grau und hypnotisierend mit der Ermittlungsbesessenheit eines Detektivs.

A man holds on to his academic papers tightly in excitement for new scientific breakthrough, as oil painting, in the style of Spitzweg. [Ein Mann hält seine akademischen Papiere fest umklammert in der Aufregung um einen neuen wissenschaftlichen Durchbruch, als Ölgemälde, im Stil von Spitzweg]

Diese emotionale Wirkung hat bereits einen fesselnden Effekt — man beginnt, die gemeinsamen Freuden der Wissenschaftler mit Ehrfurcht zu empfangen.

Portraits of the same face, created by Dalí, Magritte, da Vinci, Chagall and Klimt. [Porträts desselben Gesichts, geschaffen von Dalí, Magritte, da Vinci, Chagall und Klimt.]

Wie Sie sehen, meistert DALL·E ein breites Spektrum von einfachen Aufgaben bis hin zu anspruchsvollen Anforderungen.

Im letzten Beispiel ahmt er sogar künstlerische Stile nach.

Die Essenz des Künstlers.

Aber DALL·E geht weit über eine bloße Imitation hinaus. Um einen bestimmten Stil eines Künstlers zu erhalten, können Sie Ihre Eingabeaufforderung mit dem Zusatz “im Stil von…” versehen. Interessanterweise wendet DALL-E nicht nur den blossen Stil-Transfer an.

Es definiert die kreative Essenz des Künstlers.

In meinem Experiment bat ich darum, ein Bild mit dem folgenden Prompt zu erstellen:

Good morning, in the style of Arcimboldo. [Guten Morgen, im Stil von Arcimboldo]

Giuseppe Arcimboldo ist berühmt für seinen manieristischen und spielerischen Stil: In seinen Gemälden arrangiert er Gegenstände zu bestimmten menschlichen Gestalten.

DALL·E konnte:

den stilistischen Ansatz (Arcimboldo) erkennen und interpretieren
die Bedeutung von “Guten Morgen” bestimmen (hier: Frühstück)
1) und 2) in geeigneter Weise kombinieren (wenn auch nicht genau mit dem Esprit des Originalkünstlers, aber doch ziemlich überzeugend):

Diese Kombination von Konzepten erinnert mich an meine Textexperimente mit GPT-3, wo mir das Modell “A Love Letter by a Toaster” schrieb:

In diesem Fall hat GPT-3 verstanden:

was ein Toaster ist
wie man einen Liebesbrief schreibt
und kombinierte diese beiden völlig unterschiedlichen Konzepte.

Um zu testen, ob DALL·E nur Stile nachahmt oder Konzepte versteht, habe ich den folgenden Prompt verwendet:

The Favorite Thing by Günther Uecker (Die Lieblingssachen von Günther Uecker)

Der Künstler Günther Uecker ist dafür bekannt, dass er in seinen Assemblagen und Installationen Nägel als allgegenwärtiges Motiv verwendet.

DALL-E ist sich dieser Tatsache bewusst:

Kreative Glitches

Manchmal liefert DALL·E nicht genau das, was Sie verlangen. Trotzdem schafft es etwas, das völlig aus der Reihe tanzt.

Als ich darum gebeten habe, ein “Renaissance-Gemälde als Ego-Shooter” zu erstellen, hat es mir keine Doom-ähnliche Jagd durch Arcadia geliefert. Stattdessen gab es mir mein wahrscheinlich liebstes Bild, das von DALL·E erstellt wurde:

Das hier:

Alles ist in diesem Bild enthalten: die Idee selbst, die perfekte Visualisierung, die Atmosphäre. Du kannst es verstehen, wie du willst — das ist Kunst, die durch Deine Interpretation entsteht.

Die metaphorische Kraft des Geschichtenerzählens

Sie mögen mich einen esoterischen Nerd nennen, der den Rubikon überschreitet, wenn ich die Konzepte der Kreativität und des Geschichtenerzählens auf eine Maschine anwende, aber ich sehe diese Fähigkeit. Schließlich leben wir im Zeitalter der kreativen Zusammenarbeit zwischen Mensch und Maschine.

DALL·E versteht die kulturellen Konzepte und kennt sogar die literarischen Hintergründe.

Mit meinem Prompt

Gollum writes the autobiography [Gollum schreibt die Autobiographie]

lieferte DALL·E die folgenden Visionen:

Nicht nur, dass diese Porträts von Sméagol voller charakteristischer Ausstrahlung sind. Außerdem verwendet DALL-E nicht das ikonische Charakterdesign aus Peter Jacksons Verfilmung, sondern die Beschreibung aus dem Buch.

Auch die philosophischen Konzepte funktionieren hier sehr gut.

Sisyphus as a happy man according to Albert Camus, an oil painting in the style of da Vinci [Sisyphos als glücklicher Mensch nach Albert Camus, ein Ölgemälde im Stil von da Vinci]

liefert eine Reihe von “glücklichen” Männer:

Hier weiß DALL·E über Sysiphos Bescheid, über seine Strafe mit dem Hochrollen des Steins bergauf, über griechische Kontexte (Kleidung, Bart, Kulisse), und doch bringt es etwas Glück aus Camus’ Theorie der Absurdität.

Das hier ist beeindruckend .

Dreams of Franz Kafka [Träume von Franz Kafka]

Ein junges Mädchen mit einem dunklen Regenschirm überquert die Straße und verbreitet die Dunkelheit auf den sonnenbeschienenen Wiesen…

Diese lebendige Mischung aus verspielter Gruseligkeit, traumhafter Absurdität und hellen Abgründen der menschlichen Seele in einem Bild, das innerhalb von 30 Sekunden entstanden ist, ist atemberaubend.

Alles wurde nur mit der Aufforderung “Frank Kafkas Traum” erstellt.

Schöpferische Anarchie

Und das ist der Punkt, an dem ich die KI-Kreativität begrüße und sie einfach sein lasse, ganz ohne menschliche Interventionen oder Korrekturen.

Diese Beispiele sind ein Beweis für die chaotische Fiktion einer Maschine, mit surrealem Witz und verwirrenden semantischen Kollisionen.

The writer thinks through the main plot of her book, an oil painting, in the style of Spitzweg [Die Autorin durchdenkt die Haupthandlung ihres Buches, ein Ölgemälde, im Stil von Spitzweg]

Achten Sie auf das kleine, aber bestimmt ausgesprochene “her” — DALL·E wendet die Selbstaufmerksamkeit des Transformer-Netzwerks an, um hier Porträts von Schriftstellerinnen zu erstellen.

Man kann diesen Prozess der kreativen Arbeit auf jede beliebige Weise interpretieren — aber die hier gezeigte intensive Auseinandersetzung mit den Ideen hinter einem Werk ist überzeugend.

AI Artists in disbelief, in the style of Spitzweg [KI-Künstler im Unglauben, im Stil von Spitzweg *]

) Dies ist mein kleiner Lifehack. Carl Spitzweg war berühmt für seine satirischen Gemälden — und es bringt etwas mehr Wahnsinn in die KI-Kunst von DALL·E. Die Wahrheit ist, dass DALL·E nicht direkt Bilder im Stil von Carl Spitzweg erstellt, sondern stattdessen Spitzwegsche Ironie auf die Ergebnisse anwendet. Interessanterweise erhalten wir mit dieser Aufforderung gleichzeitig sehr unterschiedliche Stile.

Die Vielfalt an Stilen, Spannungen, Emotionen und Konzepten ist hier erstaunlich.

Als Artnet auf Twitter eine Liste der teuersten Kunstwerke veröffentlicht hat, die im März 2022 verkauft werden, habe ich DALL·E gebeten, solche zu kreieren…

...most expensive artworks sold at auction around the world in March 2022

Die Werke, die ich bekommen habe, waren überwältigend. Und das liegt nicht nur an meiner Faszination für DALL·E. Jedes der folgenden Bilder hat mein Herz und meinen Verstand mit einer intensiven auratischen Wirkung berührt.

Zusammenfassung

DALL·E hat seine grenzenlose Vorstellungskraft unter Beweis gestellt — und wir kratzen immernoch nur an der Oberfläche, wie wir es mit GPT-3 getan haben (und immer noch tun).

Das Modell imitiert nicht nur Stile oder simuliert Ideen. Es “versteht” (auf seine Weise) Konzepte und kann fast alles visualisieren, von einfachen Aufgaben bis hin zu symbolischen und metaphorischen Texten.

Folgen Sie meinem Twitter, um weitere Experimente mit DALL·E zu sehen.