AI画像技術と創造性

Stable Diffusionを用いていくつか画像を生成してみたので、まずはご覧いただきたい。

路上でチャーハンを炒めるスティーブ・ジョブズ
網焼きされる目玉焼き
森に落ちているフライドポテト
道路に落ちている目玉焼き

どれもふざけて出力してみた画像で、入力テキストはキャプションの通りだ。私がこの4枚の画像を生成するうえで、共通して試みたのは「現実ではありえないシチュエーションの画像を生み出すこと」だ。

スティーブ・ジョブズが路上でチャーハンを炒めたことは(おそらく)ないだろうし、目玉焼きはグリルでは焼けないし、道路にも落ちていない。我々は日々、道路に目玉焼きが落ちているといった蓋然性を無視して過ごしている。それはほとんど無意識だ。

これらの画像は、常識の範疇では撮影しようと思わない光景、または起こりうる可能性が限りなく低い情景ではないだろうか。

しかし、問題点がある。これらの画像の下となった画像を「haveibeentrained.com」で確認すると、出力された画像に似たような画像が出てくる。いくら、フレーズの組み合わせで「現実ではありえないシチュエーション」のテキストを入力したとしても、膨大な学習データには、例えば「ネットに絡まる生卵」のようなそれに対応する画像が存在した。

これを踏まえたうえで、私は以下のような仮説を立てた。それは、サンプル画像が存在しないような物体ないし概念は生成することはできるか、というものだ。この問いは、生成システムという枠組みの中で新たにアートは成立するかということを考えることと同義であると考える。また、アートの中でアートに自己言及的に向き合うということ、機械システムに対してイリュージョンを試みるということでもある。

そのためには、まずは、Stable Diffusionの潜在空間を明らかにしたい。
そもそも、言葉が指し示すものは、概念とイメージの2つに分けて考えることができる。例えば、千角形と千一角形は、イメージでは見分けることはできないが、概念では理解することができるだろう。こうした議論は、分析哲学の領域で盛んだが、今回は分析哲学の理論にはあまり立ち入ることなく、生成AIについて考えていく。
今回は便宜的に「鳥居」をモチーフに設定することにした。なぜなら、鳥居はその目的からして、必ず「神社に通じる道に設置されている」はずだからだ。その条件を満たさなければ「鳥居」は概念的に「鳥居」として成立しえない。概念としての鳥居は、三角形の頂点が3つしかないのと同じように、そのように理解される。「壁の前にある鳥居」は、概念的には存在せず、さらに、サンプル画像はおそらく存在しないのではないか。それでは、AIは概念に反する画像を、つまり、「壁の前にある鳥居」を生成できるだろうか。それを試みたが、以下の画像だ。

「煉瓦の壁の前にある鳥居」

これは一番私の思い通りに出力された画像だ。鳥居の先には、神社ではなく、煉瓦の壁が立ちはだかっている。概念的に矛盾する鳥居のイメージを生成することが成功しているように思える。

他方で、たくさんの失敗作があった。

鳥居自体が煉瓦になってしまっている
鳥居の先は行きどまりだが煉瓦の壁ではない
鳥居の先に煉瓦の壁はない
もはやレンガ造りになってしまっている

失敗作はたくさんあるものの、概念的に矛盾する画像をAIは生成することができた。

では、概念ではなくイメージとしての鳥居を考えてみよう。イメージを覆すイメージをAIは生成可能だろうか。

我々が捉える鳥居のイメージを、①赤い、②以下の要素から構成される、と仮に考える。

「煉瓦製の鳥居」、「大理石製の鳥居」とテキストを入力してみる。

①「煉瓦製の鳥居」
②「大理石製の鳥居」

まず、「煉瓦製の鳥居」と入力した場合、出力の傾向としては、建築物の遺構、残骸のようなものが出力されることが多かった。①では、「反増」はないものの、感覚的には、鳥居らしいイメージを感じることができる。
次に、「大理石製の鳥居」と入力した場合、出力の傾向としては、背景に地中海のような地形が描かれることが多いように感じた。②では、「反増」は再現されている。
細かな数値は検証することは、時間の都合上できなかったが、大まかな傾向としては以上のようなものがあった。

まとめよう。
第一に、潜在空間においてある概念(今回においては鳥居)は、およそ人間の理解とほとんど同じように出力される。しかし、空間の奥行の相対的な位置関係を思い通りに生成されることは少ない。鳥居と壁は、直線状には本来位置しない。だが、AIは「壁の前にある鳥居」を生成することができた。
第二に、イメージに反する画像は、AIは容易に生成することができた。その際、掛け合わされた要素は、多くの潜在空間(大理石においては地中海風の地形など)を引き連れる。

・ おまけ

最後に、それら2つの特徴を用いて、新たなイメージの生成を試みる。まずは、あるイメージにくっついてきてしまう潜在空間を利用する。そのために、メタファー的には類似しているが、概念的には遠い二つのものを用いる。そして、私は、「マスゲーム」と「細胞分裂」はイメージとしては近く、概念としては遠いものとして思いついた。

「権威主義のためのマスゲーム」で生成

上記の画像は、「権威主義のためのマスゲーム」で生成したものだ。皆が同じ方向を向き、規則的に並んでいる。

単細胞分裂のような人間増殖

上記の2つの画像は、「単細胞分裂のような人間増殖」というテキストを入力し、出力されたものだ。不気味だ。

最後に、「マスゲーム」と「単細胞分裂のような人間増殖」を掛け合わせてみる。

Humans proliferate like single-celled organisms, similar to a mass game
Humans proliferate like single-celled organisms, similar to a mass game

この二つの画像は、一見細胞を顕微鏡で見ているかのようであるが、その細胞らしきものは、よく見ると人や兵士のような形をしている。しかし、その人のような形をしたものは、一定の距離を保ちながら、接近・密集しすぎるということは無い。増殖する人間は、細胞分裂のように増えるが、同時に孤立した単細胞生物のように決して他者と交わることは無い。そのようなことを、この画像からは感じることができる。

--

--