AIと表現の未来 — MIT Tech Review Visionary Conference 2017

2017/3/6に行われたMIT Technology Review Visionary Conference 2017での発表原稿をまとめました.

僕がここに座っている理由を3行で語るとすると、たぶんこの3行になります。

楽器が弾けない、

楽譜も読めない.

それでも新しい表現を生み出す活動にかかわりたい.

そんな気持ちから私は学生時代からプログラミングを通して、さまざまな表現活動に携わってきました。

私は2009年から、Computational Creativity and BeyondをモットーとするQosmo (コズモ)という会社を運営しています。

このモットーは、Computation、つまり計算、アルゴリズムによって人間の表現の幅を広げようということです. もっと限定して、本日のトピックでもあるAIによってと言い換えてもいいかもしれません。

最近よくレンブラントのように絵を描くAIとかバッハビートルズのように作曲するAIができたといったニュースを耳にします. AIを人にどう近づけるか。それはそれでAIの研究としてもちろん価値があることだとは思うのですが、それだけではAIの本質を見誤る危険性があるのではないでしょうか.

私はそうではなく、AIはAIとして人とは違う知能として存在することによって、総体としての表現の幅が広がるということが重要なのではないかと考えています. AIは必ずしも人の模倣でなくてもいいのです.

AI DJ Project (Photo: Rakutaro Ogiwara)

このコンセプトに則って、私たちQosmoではAIをつかったDJのプロジェクトを 2015年に始めました. といってAIによってDJを全自動化しようというものではなく、人とAIが一曲づつかけあうスタイルをとっています。音楽を通したある種の「かけあい」の実現を目指しています.

実際にどのようにDJを行っているのか、イベントの様子を動画にしたのでごらんください。

Music(1'22~) : “Sunglare Drive” Ametsub
Video : Yansu Kim

最近のDJはパソコンを使って行うことが増えていますが、あえて同じ条件にするために、ともに普通のレコードを使っています. ステージ上にはロボットが置かれ、AIのプロセスを可視化しています. AIはMIDIをつかってターンテーブルを制御、さまざまなインプットの情報は刻一刻とプロジェクションで可視化されます.

このプロジェクトでは二つのDeep Learningのモデルが利用されています。
一つ目は選曲のためのモデルで、入力される音楽のスペクトルから、その曲の細かいジャンルを推定するモデルを作りました。このモデルを利用することで、音響的な特徴を抽出、マッピングできるようになります。それによって、人がかけている曲に近い曲を選んで、場のムードをキープしていくことが可能になります. 当初は人のDJがどうい選曲をするのかという情報を学習していたのですが、今はあえてそこは完全に無視しています。

音楽の特徴量によるマッピング

もうひとつはミックスのためのモデルです. PCでやる場合とは違って、レコードではターンテーブルの回転速度をコントロールすることで前にかかっている曲のリズムと次の曲のリズムを合わせる必要があります. 強化学習と呼ばれる手法を応用し、なんども試行錯誤を繰り返すことで、リズムを合わせる操作を学習させました.

MIDI制御のターンテーブルの操作を強化学習で学習

こうして学習したAIは、えてして人が想像もしなかった選曲やミックスをします。隣でDJをしている僕はAIの無茶振りに振り回されながらも、時としてその選曲にはっとさせされることもあります. 人とAIが絡むことでして生まれない独特の緊張感と言って良いかもしれません。

人とAIが絡むことでして生まれない独特の緊張感

実際に象徴的な出来事がイベントのときにありました。リハーサル中に私がかけたテクノの名曲に対して、AIがたまたまレコード箱にはいっていたフリージャズを選んでしまい、大変驚かされました。ここまで極端にジャンルが違う曲をかけることはやらないので、人の模倣という意味では「誤り」です。しかしその組み合わせが絶妙にカッコよくて、二度びっくりさせられました。人のDJを真似するのではなく、 純粋に音楽的な類似性をもとに選曲していたからこそ生まれたエピソードです.

A面、B面を間違える?? (Photo: Rakutaro Ogiwara)

この話にはまだ続きがあります。本番で逆のことが起こったんですね。僕がかけたテクノの曲を今度はAIが選んだので、ぼくはしめしめと思い、同じフリージャズの曲を選んだ… つもりだったんですが、なんとA面とB面を間違えてかけてしまった。ヒューマンエラーですね. こうした失敗も含めて、AIの予測不可能性がもたらす緊張感がこのプロジェクトのコアだと思ってます。.

これはAIで全自動にしようと思えばできるところをあえて人が絡むようにしたからこそ生まれた、面白さなのではないでしょうか.

AIと表現の未来を考えたときに、人の模倣をするAIをつくることに対しては違和感を感じます. いつも引き合いに出すのは次の三枚の画像です。いずれも20世紀初頭に生まれたドラマールというアーティストをモデルにした絵と写真ですが、まず伝統的な肖像画、真ん中がマンレイによるポートレート、右が有名なピカソの絵です.

Michael McNaughton (2013) / Man Ray (1936) / Pablo Picasso (1936)

カメラは当時の最新のオートメーションの技術であるという意味で、AIと共通項があります。あえて誤解を恐れずにいうと、人の表現の真似をするAIを作ることは カメラを使って、左のような旧来の肖像画を一生懸命描こうとすることに近いのではないでしょうか. 写真はそのままの光を切り取る表現として発明当初はある意味異質なものとして存在しました。しかし写真の存在があったからこそ、写実性という足枷から画家は解放され、キュビズムをはじめとする新しい表現が花開いたのです.

カメラによる写実が一般化すると、あえて人の手で写実的に書くことに別の意味が生まれます.左の絵は実は2013年に書かれたものだったりします. こうしたオートメーションの技術と表現の複雑な関係は、AIに関してもきっと当てはまるのだと思います.

AIを人によせるのではなく、AIはAIとして異質なまま存在することに意味があると言いました。もちろん、でたらめのものを作ろうと言っているわけではありません. 人のロジックとは違っていても、そこに「賢さ」を感じられれば人はAIから学ぶこともできます.

もしかしたらArtificial Intelligenceという言葉はミスリーディングなのかもしれません。AIをAlternative Intelligence、もっと言うとAlien Intelligence (Kevin Kellyの言葉)と言い換えてみてはどうでしょうか。もしかしたら異質であればあるほど人間の知能は遠くに行けるのかもしれません. この異質さをしっかり受け止める視点を持てるかどうかが、今後のAIと人の関わり方を考える上で重要なのだと思います。

Embrace The Difference

少なくとも人間のための表現を考えたときに、結局のところ、新しい表現を生み出すのは人間です. 異質なAIが人に対して新しい気づきをもたらすことで、新しい表現を切り開くことができるはずです。人とAIが緊張感をもって対峙する場として、今後もAI DJのプロジェクトを続けていきたいと考えています.

ご静聴ありがとうございました。