Prompt Design für DALL·E: Fotorealismus — Emulation der Realität

Laufende Liste mit Modifikatoren und Tipps zur Bilderzeugung

Vladimir Alexeev
InterMERZ
9 min readJun 12, 2022

--

English Version

Zunächst einmal: Ja, mit DALL-E können Sie verblüffende fotorealistische Bilder erzeugen. Aber die Frage ist: Was stellen Sie sich unter “Fotorealismus” vor?

Unsere Wahrnehmung ist durch die Medien übersättigt. Wir erwarten “die gleiche Qualität wie im wirklichen Leben”. Aber das ist, mal ganz unter uns, eine große Lüge. Ein gutes Foto überträgt die Realität nicht aus dem “echten Leben” auf das Fotopapier oder im Digitalformat. Vielmehr ist es eine Inszenierung der Realität: ein bestimmter Blickwinkel, eine bestimmte Beleuchtung, ein bestimmtes Objektiv, usw.

Kurz gesagt, was Sie sehen, ist nicht die “Realität”, sondern eine Interpretation des Fotografen.

Mit DALL·E erhalten wir eine Künstl(er)i(s)che Interpretation unserer Welt. Um hier einfach und oberflächlich zu bleiben, lassen wir uns “Fotorealismus” unterteilen in

  • Emulation der Realität: Ansatz, um ein Bild möglichst überzeugend darzustellen (Anpassung an die Erwartungen und visuelle Erfahrungen der Zuschauer)
  • Emulation des Mediums: Meta-Ansatz, um verschiedene Fototechniken, Kameras und Stile zu simulieren.

Eine realistische Lomographie sieht nicht fotorealistisch aus, aber sie sollte uns von ihrem “Realismus” überzeugen. Und DALL·E kann das.

Die Realität emulieren

Was ist in einem Prompt?

Wenn Sie einen Inhalts-Prompt ohne jegliche Modifikatoren eingeben und dieser Inhalt einen relativ objektiven oder figuralen Charakter hat, erhalten Sie bereits fotorealistische Bilder.

Wenn Sie zum Beispiel “Ein Apfel” eingeben, erhalten Sie eine Reihe von fotorealistischen Apfelbildern. Nicht mehr und nicht weniger.

Wenn Sie nun den Modifikator “von Magritte” hinzufügen, wird dieser Zusatz den gesamten Charakter des Prompts drastisch verändern:

Die Dinge werden kompliziert, wenn Sie versuchen, paradoxe Bilder zu erstellen, die zweifelsohne nicht im Datensatz für das DALL·E-Training enthalten waren, wie z. B.

A cat driving a bicycle. / Eine Katze fährt einen Fahrrad.

Hier sehen Sie, wie DALL·E versucht, Ihre Eingabeaufforderung zu reproduzieren, scheitert aber dabei. Sie können der KI helfen, indem Sie einen Künstler-Modifikator hinzufügen:

A cat driving a bicycle, an illustration by Michael Sowa.
Eine Katze fährt einen Fahrrad, eine Illustratiom von Michael Sowa

Anthropomorphismus von Tieren ist typisch für Buchillustrationen, daher ist eine solche Aufgabe für DALL·E mit dem entsprechenden Modifikator simpel.

Natürlich ist alles möglich — und mit der richtigen Eingabeaufforderung können Sie z. B. ein Foto von einer fahrradfahrenden Katze erstellen, indem Sie den Korrekturmodifikator “aber als Fotografie” hinzufügen.

A cat driving a bicycle, an illustration by Michael Sowa, but as photography.
Eine Katze auf einem Fahrrad, eine Illustration von Michael Sowa, aber als Fotografie.

Jetzt haben wir, wenn auch nicht ganz, den erstrebten Fotorealismus fast erreicht:

  • Wir haben einen Inhalt geschaffen (Katze auf einem Fahrrad).
  • Wir haben ihn über einen “Illustrationstrick” in die nicht-reale, absurde Situationen phantasieren lassen
  • Wir haben diese seltsame Vision durch den letzten Modifikator wieder in “fotografische” Gefilde gebracht.

Aber was ist mit “Fotorealismus”? Mit der Nachahmung der Realität?

Die Magie des Objektivs

DALL·E-Benutzer tauschen im internen Discord Ideen, Beobachtungen und Erfahrungen aus. Eine der interessanten Entdeckungen der DALL·E Discord-Community war die folgende:

Wenn man Objektiv-Angaben als Modifikatoren hinzufügt, erhält man die besonders “fotorealistischen” Bilder, die typisch für Fotoshootings mit diesen Spezifikationen sind. Entweder war der Trainingsdatensatz für DALL-E sehr gut beschriftet, oder es wurden sogar Metadaten in den Bilddateien ausgelesen und berücksichtigt.

Hier sind Beispiele für Objektive (danke, Sharif).

sigma 85mm f/1.4 — gut für ein Portraitobjektiv

Achtung: Aufgrund von TOS veröffentlichen wir keine fotorealistischen Menschenporträts. Aber wir können es mit Tieren und Objekten tun.

A portrait of a dog in a library, Sigma 85mm f/1.4
Ein Porträt eines Hundes in einer Bibliothek, Sigma 85mm f/1.4
A bitten-into apple hanging on branch of an apple tree, Sigma 85mm f/1.4
Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 85mm f/1.4
A plastic cup on sidewalk of a big city, Sigma 85mm f/1.4
Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 85mm f/1.4

So sieht “Fotorealismus” aus. Man kann buchstäblich jedes Haar in des Hundes Fell erkennen. Und der Hintergrund der Bibliothek ist ein wunderschönes Bokeh.

Sigma 85mm f/8 — weniger Schärfentiefe und schärferer Hintergrund (weniger Bokeh)

A portrait of a dog in a library, Sigma 85mm f/8
Ein Porträt eines Hundes in einer Bibliothek, Sigma 85mm f/8
A bitten-into apple hanging on branch of an apple tree, Sigma 85mm f/8
Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 85mm f/8
A plastic cup on sidewalk of a big city, Sigma 85mm f/8
Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 85mm f/8

Beachten Sie, wie der Hintergrund durch den transparenten Plastikbecher hindurchschimmert.

Sigma 24mm f/8 — breiterer Winkel, kleinere Brennweite

A portrait of a dog in a library, Sigma 24mm f/8
Ein Porträt eines Hundes in einer Bibliothek, Sigma 24mm f/8
A bitten-into apple hanging on branch of an apple tree, Sigma 24mm f/8
Ein angebissener Apfel, der am Ast eines Apfelbaums hängt, Sigma 24mm f/8
A plastic cup on sidewalk of a big city, Sigma 24mm f/8
Ein Plastikbecher auf dem Bürgersteig einer Großstadt, Sigma 24mm f/8

Sigma 24mm f/8, 1/10 s Verschlusszeit — Bewegungsunschärfe, längere Verschlusszeit

Passende Einstellung, wenn Sie jemanden in Bewegung einfangen wollen.

Running dog in a library, Sigma 24mm f/8, 1/10 sec shutter
Rennender Hund in einer Bibliothek, Sigma 24mm f/8, 1/10 s Verschlusszeit
A bitten-into apple fluttering in the strong wind on branch of an apple tree, in motion blur, Sigma 24mm f/8, 1/10 sec shutter
Ein angebissener Apfel flattert im starken Wind am Ast eines Apfelbaums, in Bewegungsunschärfe, Sigma 24mm f/8, 1/10 Sek.
A plastic cup is drifted by wind on sidewalk of a big city, Sigma 24mm f/8, 1/10 sec shutter
Ein Plastikbecher wird vom Wind auf dem Bürgersteig einer Großstadt getrieben, Sigma 24mm f/8, 1/10 Sek.

Man beachte, dass DALL·E interessanterweise zögerte, den Apfel unscharf zu machen, wir müssen explizit “in motion blur” für mehr Bewegung hinzufügen. Wahrscheinlich gab es nicht allzu viele unscharfe Apfelbilder im Datensatz (da wir normalerweise solche als “misslungene Aufnahmen” aussortiert, noch bevor es in einen Datenset kommt).

Sigma 24mm f/8 1/1000 sec Verschlusszeit — Bewegung, aber scharfes Bild — mit längerer Verschlusszeit.

Running dog in a library, Sigma 24mm f/8 1/1000 sec shutter
Laufender Hund in einer Bibliothek, Sigma 24mm f/8 1/1000 sec Verschluss
A bitten-into apple, captured in the moment of falling down, Sigma 24mm f/8, 1/10 sec shutter
Ein angebissener Apfel, eingefangen im Moment des Herunterfallens, Sigma 24mm f/8, 1/10 sec Verschluss
A plastic cup with liquid being captured in the moment of being overturned by wind on sidewalk of a big city, Sigma 24mm f/8 1/1000 sec shutter
Ein Plastikbecher mit Flüssigkeit, eingefangen im Moment des Umkippens durch den Wind auf dem Bürgersteig einer Großstadt, Sigma 24mm f/8, 1/1000 sec Verschluss

Interessanterweise beobachten wir im Fall des Hundebildes ein Phänomen des visuellen Zerfalls — das Bild ist scharf, der Hund verliert aber seinen “Fotorealismus”.

Ein Einblick in die Metadaten eines Fotos könnte Ihnen weitere Ideen liefern, wie Sie die gewünschte Qualität erreichen können. Mit diesen architektonischen Settings können Sie zum Beispiel überzeugende Innenaufnahmen erstellen:

Interior of a bright apartment with bookshelves, paintings and window looking to the megapolis, Nikon D810 | ISO 64 | focal length 20mm (Voigtländer 20mm f3.5) | Aperture f/9 | Exposure Time 1/40 Sec (DRI)Innenraum einer hellen Wohnung mit Bücherregalen, Gemälden und Fenster mit Blick auf die Megapolis, Nikon D810 | ISO 64 | Brennweite 20mm (Voigtländer 20mm f3.5) | Blende f/9 | Belichtungszeit 1/40 Sec (DRI)

Die richtigen Einstellungen finden.

Über beliebte Foto-Sammlungen wie Unsplash oder Flickr können Sie mehr über die Einstellungen erfahren, da die Metadaten oft in der Bildbeschreibung enthalten sind. Ein Beispiel ist dieses wunderbare Foto des japanischen Momiji:

Photo by myu-myu

Laut Flickr wurden die folgenden Kamera + Einstellungen verwendet:

Versuchen wir also, das Motiv und die Einstellungen zu reproduzieren:

Autumn Momiji, Nikon D810, ƒ/2.5, focal length: 85.0 mm, exposure time: 1/800, ISO: 200Herbst-Momiji, Nikon D810, ƒ/2.5, Brennweite: 85.0 mm, Belichtungszeit: 1/800, ISO: 200 
Voilá:

Et voilà:

Oder machen wir ein Foto mit tanzenden Menschen, wie auf diesem Foto:

Photo by Kenny Teo

Tanzende Menschen, am Abend, mit Blitzlicht. (Achtung: keine fotorealistischen Gesichter bitte, also: “von hinten gesehen”)

Dancing people in the evening, seen from back, sunset, Canon EOS 1000D, ƒ/3.5, Focal length: 18.0 mm, Exposure time: 1/5, ISO 400, Flash on.
Tanzende Menschen am Abend, von hinten gesehen, Sonnenuntergang, Canon EOS 1000D, ƒ/3,5, Brennweite: 18,0 mm, Belichtungszeit: 1/5, ISO 400, Blitz eingeschaltet.

Lichtspuren

Wenn Sie ein Nachtfoto von einem Auto mit Lichtstreifen erstellen möchten, müssen Sie mit ISO arbeiten:

A car passes the photographer in the night with lights, seen from outside, 24 mm, f8, 1.6 s, ISO 1000
Ein Auto passiert den Fotografen in der Nacht mit Lichtern, von außen gesehen, 24 mm, f8, 1,6 s, ISO 1000

Teleobjektiv? Aber natürlich!

Dieses wunderschöne Mondaufnahme wurde mit den folgenden Einstellungen geschossen:

Photo by 20after4

Versuchen wir, es interessanter zu machen und fügen wir einen Vogel hinzu.

Photo of a moon with a bird flying in the foreground, Canon EOS Digital Rebel XTi, 100-300mm Canon f/5.6, Exposure time: 1/160, ISO 400
Foto eines Mondes mit einem fliegenden Vogel im Vordergrund, Canon EOS Digital Rebel XTi, 100–300mm Canon f/5.6, Belichtungszeit: 1/160, ISO 400

Sie können endlos verschiedene Objektive, Blenden und ISO-Werte ausprobieren. Das Wichtigste ist Ihre Idee und Vorstellung davon, wie das Bild aussehen soll.

Studiolicht

Ein weiterer toller Trick ist die Verwendung des Modifikators “Studiolicht”.

Vergleichen Sie einfach die Aufforderung “Ein Apfel

und den Prompt “Ein Apfel, Studiolicht”.

Jedes auch so alltägliche und langweilige Objekt (sorry, Apfel) wird tiefgründig und visuell beeindruckend.

Ich vermute, dass es im Datensatz so viele Studioaufnahmen gab, dass DALL·E mittlerweile weiß, wie man ein perfektes Bild erstellt.

Semi-Zusammenfassung

Wir sind noch ganz am Anfang. Wie Sie sehen, kann DALL·E “fotorealistische” Bilder auf sehr vielfältige und interessante Weise wiedergeben (im Sinne von “emulierter Realität”).

Dieser Artikel wird aktualisiert — und es werden auch neue Kapitel hinzugefügt (Folgen Sie mir auf Twitter unter Merzmensch für Updates).

Im nächsten Kapitel werden wir sehen, ob DALL·E verschiedene Fototechniken simulieren kann (Spoiler: ja, es kann).

--

--

Vladimir Alexeev
InterMERZ

Hello friends! I'm a Digital Experience Manager at DB Schenker. Welcome to my non-private account. I'm @merzmensch as well btw. Speaking 🇯🇵 🇩🇪 🇬🇧 🇷🇺