ruDALL-e, oder Russische Künstliche Intelligenzija

Multimodaler Ansatz zur Text2Bild-Erzeugung, mit Beispielen und Experimenten

Merzmensch
InterMERZ

--

“Вся наша жизнь — театр” // “Die ganze Welt ist eine Bühne” (ruDALLe)

SPOILER: ruDALL-e hat nichts mit DALL-E von OpenAI zu tun, birgt aber dennoch viele Überraschungen und spannende Phänomene.

Ab 2021 überraschte OpenAI die Welt erneut mit einer Reihe von KI-Meilensteinen: multimodale Netzwerke CLIP und DALL-E, die in der Lage sind, Text direkt per Prompt in Bilder zu transformieren (ich habe über dieses Modell und seine kulturellen Auswirkungen geschrieben). Auch wenn DALL-E immer noch nicht für den öffentlichen Gebrauch zur Verfügung steht (Spoiler: da kommt eventuell bald was), wurde CLIP als Open Source veröffentlicht — und brillante Köpfe auf der ganzen Welt konnten es in einzigartigen generativen Kunstformen anwenden (meine Analyse folgt).

Die kreativen Fähigkeiten von DALL-E, wie sie in der OpenAI-Präsentation beschrieben wurden, beeindruckten tief und inspirierten die kreative KI-Gemeinschaft.

Das ist keineswegs Lethargie der Kreativität, sondern ihr Katalysator.

Und in der Tat, wenn man darum bittet, “ein Buntglasfenster mit dem Bild einer blauen Erdbeere” zu erstellen, erhält man sofort eine Reihe von Bildern:

OpenAI Blog // Screenshot by Author

Sie sehen eine Vielzahl von Designvorschlägen. Einige von ihnen sind fotorealistisch, andere verschwommen, in verschiedenen Stils und Kompositionen. Aber sie bringen Ihnen eine visuelle Idee näher.

Oder wie wäre es mit “einer Uhr in Form eines Donuts”?

OpenAI Blog // Screenshot by Author

OpenAI arbeitet noch an der Optimierung und an Anwendungsbeispielen für DALL-E, bevor sie dieses Modell für die Welt freigeben. Und das werden sie sicherlich — sie haben GPT-3 jetzt ohne Warteliste veröffentlicht. Alles ist möglich (die Frage ist nur “wann”).

Russische Modelle

Aber plötzlich wurde DALL-E veröffentlicht.

OK, nicht wirklich plötzlich. Und nicht wirklich DALL-E.

Im Jahr 2020, als GPT-3 das begehrteste NLP-Modell war, veröffentlichten russische Forscher ein vom KI-Forschungslabor der russischen Bank Sberbank gegründetes Projekt: ruGPT-3. Es wurde auf 600 GB russischer Texte trainiert und mit 760 Mio. (ruGPT-3 Large) und 1,3 Mrd. (ruGPT-3 XL) Parametern veröffentlicht, vgl. die Tabelle in der Beschreibung des Projekts.

Wenn Sie die Daten mit dem OpenAI GPT-Modell vergleichen, werden Sie es sehen. Das größte GPT-2-Modell arbeitete mit 1,5 Milliarden Parametern. Das echte GPT-3 (mit DaVinci-Engine) läuft mit 175 Milliarden Parametern.

Die Schlussfolgerung: Das russische ruGPT-3 XL liegt irgendwo auf dem Niveau von GPT-2 (aber trainiert auf einem umfangreichen Datensatz von russischen Texten, Aufsätzen und Büchern). Signifikanter Unterschied: das russische Modell kann russische Texte in besserer Qualität generieren als GPT-2 von OpenAI (trainiert auf englischen Texten). Der Datensatz ist wichtig. Trotzdem kann es keinen Liebesbrief von Toaster auf Russisch verfassen. Es ist nicht in der Lage, abstrakte Erkenntnisse zu gewinnen oder literarische Stile zu übertragen.

Nun, Ende letzten Jahres wurde ein neues, von der Sberbank finanziertes Projekt veröffentlicht:

ruDALL-e.

Es wurde auf demselben Christofari-Cluster wie ruGPT-3 trainiert, ist mit Apache 2.0 lizenziert und “vergleichbar mit dem englischen DALL-e von OpenAI” (Zitat von der ruDALL-e-Website).

Schauen wir mal, inwiefern vergleichbar…

Russisches DALL-e

Es gibt zwei Modelle von ruDALL-e:

Malevich (XL) — läuft mit 1,3 Milliarden Parametern, mit Bild-Encoder (benutzerdefiniertes VQGAN-Modell), verfügbar als Repository und ein Colab Notebook mit implementiertem Upscaler RealERSGAN (KI-basierte Bildverbesserung und Hochskalierung).

Kandinsky (XXL) — besseres Modell, das mit 12 Milliarden Parametern läuft (wie DALL-e von OpenAI), derzeit nicht zum Testen verfügbar.

Da DALL-e nicht öffentlich zugänglich ist, versuchten die Forscher, das Modell nachzubauen, bezogen auf Originalpaper (PDF) und in Zusammenarbeit mit dem CogView-Projekt der Tsinghua-Universität, die ebenfalls versuchten, DALL-e zu rekonstruieren.

Da der ursprüngliche OpenAI-Transformer nicht verfügbar war, versuchten sie, seine Architektur nachzubilden — und nannten es ruDALL-e.

Aber funktioniert er wirklich?

Glücklicherweise gibt es ein öffentlich zugängliches Colab Notebook von ruDALL-e (unter Verwendung des kleineren Modells, Malevich).

Schlauen Fuchse vom Latent Space Discord (erstellt von CLIP-Forscher und Künstler Advadnoun) konnten das Notebook sogar optimieren — und fanden einige seltsame Phänomene.

Offensichtliche Beispiele

Schauen wir uns also an, ob ruDALL-e die im ursprünglichen DALL-e-Artikel zitierten Beispiele generieren kann.

Der berühmte Avocado-Sessel (“Sessel in Form von Avocado”)

DALL-e by OpenAI (source) // Screenshot by Author

und ruDALL-e:

ruDALL-e (Malevich) // Screenshot by Author

Bei beiden Ansätzen sehen wir, wie das Modell es die Aufgabe “begreift”, das Phänomen “Stuhl” mit dem Phänomen “Avocado” in der Funktion “Form” zu kombinieren.

Nur im Fall von OpenAI DALL-e sehen die Ergebnisse organischer aus als bei ruDALL-e Malevich (XL). Das letztere Modell wählt spezifische Merkmale wie Farbe oder Form aus, aber seine Erzeugung ist weniger organisch (dennoch interessant). Selbst das größere Modell Kandinsky (XXL) kann die Designqualität des Stuhls von DALL-e nicht wiedergeben:

Source: https://rudalle.ru/en/ (Kandinsky (XXL)) // Screenshot by Author

Schauen wir uns einige konkretere Beispiele an, wie …

Eine Sammlung von Uhren liegt auf einem Tisch.

OpenAI Blog // Screenshot by Author

Am Beispiel von DALL-e von OpenAI können wir sehen, dass es bereits mehr über Uhren und deren Design weiß als das gute alte BigGAN. Ihr erinnert euch, 2018:

Clock by BigGAN (2018) // Created by Author

BigGAN konnte visuelle Elemente wie “rundlich”, “mit Pfeilen” usw. neu generieren. Auf den Uhren von DALL-e sieht man die Zahlen, 12-Stunden-Designs, etc.

ruDALL-e // Created by Author

ruDALL-e (oben) transportiert die visuelle Qualität sehr gut — die Vielfalt der Motive ist gut. Vom Realismus von DALL-e ist es aber noch weit entfernt. Meines Erachtens, hat es die visuelle Kapazität von DALL-e, aber den Grad der Verständlichkeit von BigGAN.

Immerhin verblüfft die Qualität von ruDALL-e dennoch — und mit einem integrierten ERSGAN-Upscaling-Filter kann man Bilder sogar in ein überdimensioniertes Format umwandeln (man kann es aber auch direkt mit ERSGAN nachträglich tun).

Russischer Touch (auf den Datensatz kommt es an)

Der wahrscheinlich spannendste Aspekt von ruDALL-e ist der Trainingsdatensatz. Diesen finden Sie in den westlichen Implementierungen nicht, da er auf russischen Inhalten basiert.

Wenn Sie ihn mit “Закат в городе” (Sonnenuntergang in der Stadt) aufruft, bekommen Sie eine Reihe schöner Ansichten russischer Städte, vor allem Moskau und Sankt Petersburg (anstelle von New York oder London). Auf vielen Bildern kann man die Moskwa, den Kreml und die klassizistische und eklektische Energie der russischen/sowjetischen Architektur erkennen.

ruDALL-e completions, Created by Author

In einem anderen Beispiel, mit dem Prompt (Aufforderung) “Портрет гения” (Porträt eines Genies) erhält man Illustrationen aus populären russischen Lehrbüchern anstelle des stereotypen “verrückten Wissenschaftlers” aus Hollywood oder eines Stockphoto eines Lehrers mit komplexen Formeln an der Tafel im Hintergrund. (Ich kann diese Kategorisierung nachvollziehen, da das pathetische Epitheton “Genie” für russische Lehrbücher, die bedeutende Wissenschaftler, Schriftsteller oder Künstler begleiten, ziemlich charakteristisch ist — die westlichen Lehrbücher versuchen darauf zu verzichten und bauen andere Kulte auf, anstatt eines Personenkults).

ruDALL-e completions, Created by Author

Wir können hier sogar mehrere berühmte Personen identifizieren, die kreativ entstellt wurden.

Charles-Augustin de Coulomb? // ruDALL-e completions, Created by Author

Dieses Porträt ist aus Physiklehrbüchern über das Coulombsche Gesetz bekannt, wobei genau diese Illustration in russischen Lehrbüchern verwendet wird.

Probleme mit dem Datensatz?

Wenn Sie mit ruDALL-e experimentieren, werden Sie den Inhalt des Datensatzes, auf dem das Modell trainiert wurde, Stück für Stück entdecken und rekonstruieren.

Vor einem Jahr, als DALL-e und CLIP von OpenAI eingeführt wurden, erstellte ein legendärer Künstler und Forscher namens Advadnoun mehrere CLIP Colab Notebooks, die zur Grundlage für die Renaissance der Text2Image Art im Jahr 2021 wurden. Im Laufe des Jahres wurden mehr als 100 Notebooks von verschiedenen Künstlern und Forschern mit unterschiedlichen Ansätzen weltweit verfeinert. Advadnoun eröffnete ein Patreon mit seinen bahnbrechenden Experimenten und ein Discord-Forum. Dort versammeln sich kreative Menschen, die weitere künstlerische KI-Modelle erforschen, die fast wöchentlich weltweit auftauchen — und ruDALLe wurde für längere Zeit zum Mittelpunkt dieser Community.

Wir konnten teilweise erste Bilder aus dem Datensatz erkennen, auf dem ruDALL-e trainiert wurde.

SberAI schreibt über ihren Trainingsdatensatz:

Unser erster Schritt bestand darin, die Daten, die OpenAI in ihrer Veröffentlichung anbot (über 250 Millionen Paare), zusammen mit den von Cogview verwendeten Daten (30 Millionen Paare) zu erfassen. Diese Daten umfassen: Conceptual Captions, YFCC100m, Wikipedia-Daten und ImageNet. Dann fügten wir die Datensätze OpenImages, LAION-400m, WIT, Web2M und HowTo als Quellen für Daten über menschliche Aktivitäten hinzu. Wir nahmen auch andere Datensätze auf, die Bereiche abdeckten, die für uns von Interesse waren. Die wichtigsten Bereiche waren Menschen, Tiere, berühmte Persönlichkeiten, Innenräume, Wahrzeichen und Landschaften, verschiedene Arten von Technologie, menschliche Aktivitäten und Emotionen. (Quelle)

Auf der anderen Seite scheint es Bilder zu geben, die aus dem Internet aufgesammelt wurden (im Gegensatz zum OpenAI Safe Dataset Ansatz). Das sieht man schon bei der Erstellung einer Reihe von Bildern:

ruDALL-e completions, Created by Author

Ja, genau. iStock-Wasserzeichen. Offenbar enthielt der Datensatz prominent die Vorschaubilder des berühmten Stockphoto-Anbieters.

Aber auch die allgegenwärtigen Memes, die das soziale Online-Gedächtnis (und die Bilddatensätze) zu stigmatisieren scheinen wie alte Fernsehbildschirm-Einblendungen von Fernsehsender-Logos.

Wir sehen die berühmten Memes mit Marlon Brando (als Vito Corleone) und Robert Downey Jr Meme (rollende Augen). Aber mit quasi-russischen Texten.

Found by danielrussruss

Es sieht so aus, als ob Bilder von russischen Websites für den Trainingsdatensatz verwendet wurden. Eine weitere seltsame Übereinstimmung wurde von Elle / MichaelFriese10 und DanielRussRuss gefunden:

Screenshot by MichaelFriese10

Das dritte Bild sieht aus wie ein Buchcover — mehr noch, es wird fast 1/1 aus dem Trainingsdatensatz in die Vervollständigung übertragen.

Mit der Bildrückwärtssuche (die ziemlich inspirierend sein kann), insbesondere — in diesem Fall — mit der Yandex-Bildersuche, können Sie die Originale, die Wurzeln der Bilder, finden.

Zum Beispiel, dieses Bild:

ruDALL-e completions, Created by Author
Yandex Image Search, Screenshot by Author

In diesem Fall scheint die visuelle Vervollständigung (“hochgeladenes Bild”) ihre Wurzeln in den Fotos der Moskauer U-Bahn (in diesem Fall der Station Majakowskaja) zu haben.

Wir müssen uns immer über beabsichtigte oder unbeabsichtigte Plagiate durch KI im Klaren sein (wie bei Shakespeare vs. Alexander Pope).

Ein ähnliches Phänomen habe ich auch beim Übertraining von GPT-2 auf nicht-englische Texte erlebt. In meinem Fall habe ich eine einzige Datei verwendet: “Faust” von Goethe (im Original).

Zu Beginn des Trainings konnten wir neue Texte beobachten (in dem sehr eigenartigen, verzerrten Deutsch, aber bereits mit einer Struktur, die dem Originaldrama entspricht). Nach 7000 Schritten waren die Ergebnisse nahe am Originaltext; sie wiederholten sogar den Inhalt des Datensatzes.

Durch Übertraining auf einem begrenzten Datensatz wurde dieser Datensatz rekonstruiert.

Auf der linken Seite: Trainingsschritt 600. Auf der rechten Seite: Trainingsschritt 7400. // Screenshot des Autors

Im Fall von ruDALL-e frage ich mich, wie die Vervollständigung so nah an die Originalbilder herankommen konnte, wenn der Trainingsdatensatz angeblich so vielfältig ist?

Abstraktes Denken?

Einfache Aufgaben wie die oben genannten können von ruDALLe nachgebildet werden. Versucht man es jedoch mit abstrakten Themen, tritt ein spannendes Phänomen auf. Anstatt solche Themen zu “halluzinieren”, erstellt ruDALLe einfach Buch- und CD-Cover und Website-Mockups (alle in russischer Sprache).

“Nostalgie”

ruDALL-e // Screenshot des Autors

“Erinnerungen an das vorherige Leben”:

ruDALL-e // Screenshot des Autors

Nichtsdestotrotz sind einige der Vervollständigungen ziemlich beeindruckend.

Kulturelle Bezüge

Wie bereits erwähnt, ist ruDALLe an der vorherrschenden russischen Bildsprache geschult.

Wenn man sich mit russischen Inhalten/Kontexten beschäftigt, kann man interessante Neuinterpretationen von Geschichte und Kultur finden:

Die Sechziger(“Шестидесятники”)

Nach dem Tod Stalins (1954) und während des Chruschtschow-Tauwetters (1950/60er Jahre) entstand in der Sowjetunion eine faszinierende Kulturszene: Die Sechziger. Die sowjetischen Intellektuellen — Künstler, Schriftsteller, Musiker — spiegelten zum Teil die Protestbewegungen der 60ger Jahre in den USA und Europa wider, zum Teil wollten sie sich von Stalins Trauma befreien und begannen, eine alternative, zweite Kultur zu entwickeln, die dem sozialistischen Realismus und der patriotischen Spannung der (post-)stalinistischen Epoche thematisch, visuell und ideologisch entgegengesetzt war.

Leider ist diese einzigartige Bewegung außerhalb der UdSSR/Russland nur wenig bekannt, aber sie brachte kulturelle Vielfalt, Frische und Aufgeschlossenheit und beeinflusste Generationen von Kulturschaffenden i einem Sechstel der Erde.

Hier ist nur ein kleiner Ausschnitt aus einem Film mit aktuellen Dichtern und Künstlern, um die Stimmung zu spüren:

Dichterlesung im Polytechnischen Museum, Moskau, 1964

Bei meinen Musikexperimenten mit JukeBox bin ich auf ein unheimliches Phänomen gestoßen, als AI die Stimmen der Sixtiers rekonstruierte (im Nachhinein jedoch erinnert es mich auch an den Avantgardisten Majakovskij).

Wie Sie sehen, ist dieser Kontext ziemlich unterschiedlich zu artikulieren, vor allem, wenn er von einer KI rekonstruiert wird. ruDALLe erzeugt (aufgrund seines Vortrainings) eine Vielfalt von Bildern mit der Aufforderung “Шестидесятники” (Sixtiers):

ruDALL-e // Screenshot vom Autor

Ich erkenne mehrere dokumentarische Fotos, Gruppenbilder mit performance-ähnlichen Szenen. Das erste Bild ähnelt dem berühmten Bild der Sechziger (das auch für ihr avantgardistisches Magazin “Youth” (“Юность”) verwendet wurde):

Cover der Anthologie von Dmitri Bykov über “Sechziger” mit Verwendung des Jugend-Emblems (von Stasys Krasauskas)

Vielleicht überinterpretiere ich meine Beobachtungen, aber je weiter ich in den Kaninchenbau hinabsteige, desto mehr archäologische Entdeckungen springen mir entgegen.

Ist ruDALLe kreativ?

Während die Menschen immer noch über die kreative Fähigkeit von Maschinen diskutieren, habe ich für mich selbst eine eindeutige Antwort (nachdem ich seit 2015 mit KI zusammenarbeite):

Ja!

Im Folgenden möchte ich einige interessante Erkenntnisse über die Kreativität von ruDALLe vorstellen (alle Eingabeaufforderungen wurden auf Russisch eingegeben, ich habe sie für den Artikel übersetzt).

Mona Lisa auf dem Dorf

ruDALL-e // Screenshot des Autors

Auch wenn nicht jeder Resultat die Dame Gioconda auf dem Lande zeigt, sind die Ableitungen interessant. Selbst Da Vincis “sfumato” (rauchige Farbabstufung) funktioniert in den meisten Bildern. Auch die Art und Weise, wie sie ihr Gesicht in verschiedene Richtungen dreht, ist hervorragend.

Pokémon im Kreml

ruDALL-e // Screenshot des Autors

Während das erste Bild die Situation “Pikachu besucht Moskauer Sehenswürdigkeiten” illustriert, erfordert das zweite Bild mehr inhaltliches Wissen: Hier sehen Sie die perfekte Darstellung von Boris Jelzins Frisur. Auf dem dritten Bild sehen Sie eine Putin-ähnliche Person, die sich über etwas Niedliches freut, wahrscheinlich über Pokémon, die sich im Kreml herumtreiben auf der Suche nach den Sehenswürdigkeiten.

Mädchen in einem Fenster.

ruDALL-e // Screenshot des Autors

Dieser Prompt (Eingabeaufforderung) generiert eine Reihe verzerrter menschlicher Bilder (ruDALLe ist noch nicht in der Lage, realistische Gesichter zu erzeugen). Aber einige der Vervollständigungen tragen künstlerische Kraft in sich, wie diese hier:

ruDALL-e // Screenshot des Autors

Ich vermute, der Datensatz für das ruDALLe-Training enthielt Kunstfotografie — oder auch Instagram-Bilder.

Natur

ruDALL-e // Screenshot des Autors

Dass KI in der Lage ist, die Natur realistisch abzubilden, wissen wir bereits seit BigGAN. Erstens: Natürliche Merkmale sind in den meisten Bildern des Datensatzes enthalten (und sei es nur als Beiwerk, als Hintergrundmotiv). Zweitens: Es ist unser Gehirn, das Naturbilder abkauft, auch wenn sie auf den zweiten Blick nicht überzeugend sind. Bei Gesichtsbildern erkennen wir sofort alle Verzerrungen, die KI macht, da unser Gehirn speziell darauf trainiert ist. In der Vergangenen Epochen (Steinzeit etc.) war es für uns nicht entscheidend, ob ein Baum oder eine Wolke komisch aussieht.

Komische Monster auf den Straßen

ruDALL-e // Screenshot by Author

Charmant, nicht wahr? Irgendwie erinnert es an den Stil von Maurice Sendak.

Konstruktivistisches -Geburtstagsfeier

Da muss ich zwangsläufig an ROSTA-Fenster denken.

Liebespaar im Weltraum

Diese Resultate übertragen den Sci-Fi-Look der sowjetischen Künstler (zu denen auch der Kosmonaut Alexey Leonov gehörte) — blaue Farben des Weltraums, dunstiges Sfumato der Erdatmosphäre, idealistische und utopische Vibes der Zukunft.

Lenin in Wolken

Zweifellos sollte der ruDALLe-Datensatz eine Menge Bildmaterial aus der russischen/sowjetischen Geschichte enthalten. Es ist interessant, dieses spezielle vortrainierte Modell zur Neuinterpretation visueller Erzählungen zu untersuchen.

Diese Eingabeaufforderung lieferte mir einige sehr interessante Vervollständigungen, bei denen man Lenin erkennen kann (auch wenn das mittlere Bild eine Mischung aus verschiedenen sowjetischen Politikern zeigt).

Aber das folgende Ergebnis hat mir eine Gänsehaut beschert. Es ist mehr als nur eine Neuinterpretation von Lenin. Es ist eine einzigartige Perspektive, die charakteristisch für Konzeptualisten (wie Komar & Melamid) und andere künstlerische Dissidentenbewegungen während des Endes der UdSSR ist.

Dieses dramatische Porträt mit der Perspektive auf die gesamten Geschichte bis zum Zusammenbruch der Sowjetunion ist einzigartig.

Auferstehung

Und hier ordnete ruDALLe den Prompt dem Inhaltsfeld zu, in dem er vorherrscht: religiöser, christlicher Kontext. Die Visualisierung war durch die dazugehörigen: Griechisch-Orthodoxe Ikonen.

Aber auch Umdeutungen außerhalb kanonischer Bildmerkmale wurden hier vorgenommen:

Interessant ist auch: bei näheren Betrachtung erweisen sich die generierten Bilder als verzerrt, seltsam, ulkig. Doch aus der Entfernung sehen sie perfekt aus.

Zusammenfassung

ruDALLe ist nicht DALL-E. Ihm fehlt der symbolische Transfer, die metaphorische Kraft und die Flexibilität des multimodalen Ansatzes von OpenAI.

Nichtsdestotrotz ist es ein solides, eigenständiges Modell, das inspirierende und einzigartige Visualisierungen hervorbringt, die sich für Ideenfindung, Brainstorming und das Denken über den Tellerrand hinaus eignen.

ruDALL-e // Screenshot des Autors

--

--

Merzmensch
InterMERZ

Futurist. AI-driven Dadaist. Living in Germany, loving Japan, AI, mysteries, books, and stuff. Writing since 2017 about creative use of AI.