Der visuelle anarchistische Realismus von CycleGAN

…und wie KI die Entwickler betrügt.

Vladimir Alexeev

Published in

InterMERZ

5 min readMar 27, 2022

Verschmelzen von Realitäten CycleGAN (Souce)

Veröffentlicht/published in Merzazine (2019.01.14).

Sie haben bereits Fotos in Van Gogh’s Werke verwandelt. Aber haben Sie sich jemals den umgekehrten Weg vorgestellt? Ich meine, Gemälde in Fotos zu verwandeln? Während der erste Versuch einer Filterfunktion eines Bildbearbeitunsgprogramms nahe kommt (die Bilder werden angepasst und der Stil wird übertragen, so dass Sie einen bestimmten künstlerischen Charakter erkennen können), scheint der zweite Versuch fast unmöglich zu sein. Eine künstlerische Phantasie in die Realität bringen? Pygmalion wäre stolz.

Falsch gedacht. Es ist jetzt möglich. Mit CycleGAN.

Das Prinzip dieses Verfahrens ist bereits im Titel enthalten — und in der Paper “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”. Ein großer Unterschied zu früheren Versuchen besteht im Folgenden:

Die Bild-zu-Bild-Übersetzung ist eine Klasse von Bildverarbeitungs- und Grafikproblemen, bei denen das Ziel darin besteht, die Abbildung zwischen einem Eingabebild und einem Ausgabebild mit Hilfe einer Trainingsmenge von ausgerichteten Bildpaaren zu trainieren. Für viele Aufgaben stehen jedoch keine paarweisen Trainingsdaten zur Verfügung. Wir stellen einen Ansatz zum Erlernen der Übersetzung eines Bildes von einer Quelldomäne X in eine Zieldomäne Y vor, wenn keine gepaarten Beispiele vorliegen.

Der zyklische Prozess kann den Übergang zwischen Stilen und anderen visuellen Aspekten eines Bildes mit konsistenter Datenkohärenz ermöglichen. Kurz gesagt: Wenn Sie Bild A nehmen und es mit Deep Learned Adversarial Networks in Bild B umwandeln, können Sie es ohne Datenverlust zurückwandeln.

Aber das ist noch nicht alles. Konsistenz ist nur der Anfang. KI kann Objekte erkennen — und Sie können die Erkenntnis manipulieren.

Sie können die Ergebnisse mit optionalen wechselnden Outputs kontrollieren. Sie können Wunder bewirken. Das Paper (PDF) und die Website des Projekts zeigen die Möglichkeiten auf.

Hier nur einige von ihnen.

Sie können ein Gemälde in ein Foto verwandeln.

GAN erkennt die vom Künstler dargestellten Objekte — und interpretiert sie anhand des antrainierten Wissens über fotografische Vision. Auch hier sehen die Naturelemente und Hintergründe (Gras, Wasser, Himmel) schon deshalb fotorealistisch aus, weil die Bildbibliotheken, die für das Training der Netze verwendet werden, die meisten Hintergründe enthalten — zusammen mit bestimmten Objekten im Vordergrund. Nehmen wir an, es gibt Tausende von Bildern, die Dutzende von Hunderassen enthalten — aber selbst wenn die Hunde nach ihrer Art beschriftet sind, sind die Hintergründe (Landschaften etc.) hinter den Hunden allgemein und “generisch”.

Sie können das Gemälde sogar in ein Foto verwandeln, mit dabei beibehaltenen Farbpaletten des Originals:

Idee: fotografische Vision der abstrakten Malerei. Wird die KI zusammenbrechen oder werden wir einige faszinierende Pseudo-Realitäten erhalten? (OK, vergessen Sie “pseudo”).

(Stimme aus der Zukunft, 2022: ja, mit CLIP wird es möglich sein).

Sie können ein Objekt durch ein anderes ersetzen.

Hier geht es freilich um andere stilistische Interpretationen gleicher Objekte.

Zum Beispiel die semantische Ersetzung eines Pferdes durch ein Zebra (und umgekehrt):

Man kann das sogar mit Videomaterial machen:

Beachten Sie die Streifen des Zebras — die Muster am beweglichen Objekt bleiben während der Bewegungen gleich (auch wenn andere Objekte im Vordergrund ebenfalls “zebrafiziert” werden).

Auch Früchte sind austauschbar — auch wenn die visuellen Artefakte vorhanden sind.

Nun, nobody is perfect, und manchmal macht auch die KI Fehler, z. B. erkennt sie den russischen Präsidenten nicht, der auf einem Pferd sitzt, also…

Sie können die Saisoneinstellung ändern

Hier: Sommer bis Winter.

Die Farbpaletten werden angepasst und auf eine andere Jahreszeit ausgerichtet.

Sie können Karten in Luftbilder umwandeln.

Dies ist die neueste Entwicklung. Netzwerke können die Karte intelligent lesen, die Topologie erkennen und sie in eine Simulation von Satellitenfotos umwandeln:

Aber in diesem Fall ist etwas Seltsames passiert. CycleGAN hat geschummelt. Wie bereits erwähnt, CycleGAN ist also die kohärente Transformation zwischen Bild A und Bild B in beide Richtungen. In diesem Fall passierte also folgendes:

Das Luftbild wurde in eine Straßenkarte umgewandelt (wie gewünscht)
Die Straßenkarte wurde zurück auf das Luftbild übertragen (wie angefordert)
Die Entwickler meldeten das Wiederauftauchen einiger Details, die auf der skizzierten Straßenkarte fehlten. Die Eingabe (a) und die zyklische Ausgabe (c) enthielten Details, die in der generierten vereinfachten Karte nicht enthalten waren.

Nach der Analyse der Karte fanden die Entwickler verborgene Schichten von Fotobildern, die von der KI zur Rekonstruktion des Fotos verwendet wurden. Dieser Aspekt war von den Entwicklern nicht geplant. Ganz smart, die KI.

Fazit. In unserer Post-Fakten-Epoche scheint eine solche Entwicklung offensichtlich zu sein. Wir sollten niemals Bildern trauen, weder früher noch heute. Oder wahrscheinlich:

Jedes Bild enthält seine Realität. Wir müssen nur die multiplen Realitäten anerkennen und akzeptieren.

In meiner Serie “KI & Kreativität” möchte ich mit Ihnen die neuesten Tendenzen beobachten, neue Tools ausprobieren und die #KI-Künstler vorstellen.