2019年4月。Computational Creativity Labが始まります! at SFC

『創るためのAI — 機械と創造性のはてしない物語』
Computaional Creativity Lab

Computational Creativity Lab:

AI and Creativity

What is Creativity? - 創造性とは

この研究室の根本にあるテーマがこれです。音楽を例にすると、たとえばDeep Learningでバッハの楽曲を学習することでバッハらしいメロディーやハーモニーを生成することはできるかもしれません。実際に音楽とAIの領域でこういった研究が多数なされています。しかし過去の音楽をAIで生成できたとして、はたしてどのくらい意味があるでしょうか。過去のヒット曲を学習して。。。というのも同じです。囲碁や将棋のようにルールがはっきりしているゲームのような場合と異なり、音楽には明確な評価基準がありません。あるのは人が作った学習データ、過去の名曲群だけです。それらを学ぶことで聴いたことがないような創造的な音楽、新しいジャンルをつくりあげることはできるのでしょうか。その前に創造的とはどういう意味なのかを考える必要もあります。

Creativity is the ability to come up with ideas that are new, surprising, and valuable — Margaret Boden

心理学や美学の研究者を中心に、アーティストが新しい表現を作り上げる際のこころの動き、思考パターンについて研究がなされています。最初に書いたように、Computational Creativityの研究領域では、創造的な振る舞いをしているとみなせるシステムを組み上げることで、創造性とは何かを考えます。また別の文脈でパターンランゲージなどを用いた創造性研究も盛んですね。

The Clockwork Muse — The Predictability of Artistic Change” Colin Matindale
適度な新しさとは?
Wundtカーブ

Quantifying feeling/synesthesia — 感覚、共感覚の定量化

Deep Learningの面白いところは、人がなんとなく共有している「感覚」を定量化できるようになったということだと思っています。たとえば、Imaginary Soundscape(Qosmo, 2017)では、Image ⇄AudioのCross Modalな(複数の感覚をまたいだ)モデルを用いることで、人がある写真を見たときに想像するであろうその場所のサウンドスケープを生成するということをやりました。

Imaginary Soundscape (Qosmo)

What is “Boke” “Zure”? — ズレ、ボケ、はずしの研究

人が持っている感覚を定量化できるようになったと書きましたが、定量化できるということは、ぴったりくる答えを返すだけではなく、あえてすこしズレた答えを返したり、どのくらいハズすのかをコントロールできることになります。あとで書くAI DJ Project (Qosmo 2016)でも、「正解」の曲ではなく、そこからすこしずらした曲をかけることが、選曲の適度な意外性につながりました。お笑いやファッションの世界をみていると、この「ズレ」「はずし」にこそ、創造性のエッセンスが詰まっているようにも感じます。その際に、どのくらい・どのようにずらすのが、よいのかというのは難しい問題です。Deep Learningによる定量化が、そういった疑問に新しい光をあてられるかもしれません。

Creativity is allowing yourself to make mistakes. Art is knowing which ones to keep. — Scott Adams

またAIのシステムが、学習データ自体が内包する格差や偏見を助長するようなことはさけなければなりません(ごつい革ジャンを着てるからといってパンクロック好きとは限りません笑)。そういう意味でもAIのモデルを利用しつつ、適度にそこから外そうとする意識が重要になってくるかと思います。

Expanding Creative Adversarial Networks(CAN) — ずれのシステム化

CANは、Generative Adversarial Networks(GAN)をベースにしたアルゴリズムで、絵画のデータセットを元に新しい絵画のスタイルを生成するという試みです。

CANで生成された抽象画

Generating Lyrics and Texts — 文章・歌詞の生成

僕は実は音楽と同じくらい読書、しかも小説を読むことが好きです。小学生の時に、コンピュータをはじめて触ったときにやったことは、BASICのプログラミングではなくて、学校で演じる劇の脚本を書くことでした。「ことば」には以前から深い関心は持ってきました。これまでにAIヒップホップバンド?で韻を踏んだリリックの生成や、カラオケ動画からカラオケの歌詞を生成するなんてこともやってきました。この系統の研究も進めていきたいと思ってます。

YourCosmos — AI HipHop Band (evala, Daito Manabe, Kaoru Sugano, Kouki Yamada, Satoru Higa, Satoshi Horii, Nao tokui)
Video Lyrics — AI カラオケ (Dentsu Lab Tokyo / Qosmo)

Making GANs Interactive

ここはまだアイデアがなく、ぼんやり考えている程度ですが、Generative Adversarial Networks(GAN)をつかったインタラクティブな作品・システムを作りたいと考えています。Fake Newsが量産される危険性を含め、その社会的なインパクトを示唆するような作品もあわせて考えたいです。

Computational Creativity Lab:

X Music

こちらはより具体的なテーマがすでにいくつかあります。

Updating Microsampling — 21世紀のサンプリング技法の開発

Deep Learningを用いたマイクロサンプリング

Demystifying Dilla Beats — グルーブのあるリズム生成

J Dilla mix tape — 果たしてこんなビートを生成できる日は来るのか…

“It sounded like the kick drum was played by a drunk 3 year old. I was like, ‘What the hell is that?’ I had never heard someone not give a f*ck. That to me was the most liberating moment.” — ?uestlove

参考/関連資料

AI and DJ

AI DJ Project — DJ: tofubeats— Photo by Yasuhiro Tani
Courtesy of Yamaguchi Center for Arts and Media [YCAM]
  • 起承転結、ストーリー性のある選曲をするには?
    現状のモデルは一曲単位の連続性しか考慮できていません。上手なDJは選曲によって物語を語るといいますが、ひとつのパフォーマンスの中での選曲に起承転結をつけるにはどうしたらいいのでしょうか。
  • 楽曲の解析技術を元にしたミックス
    上で述べた楽器の認識や、リズムのノリの解析ができれば、音の構成の相性がいい曲、ノリがぴったりくる曲を探したりできるはず。
  • サンプリングネタや歌詞の内容、曲が作られた場所などの曲に付随するメタ情報の関連性のみをつかった「うんちく」DJモデルが作れるか?
  • ターンテーブルのコントロールを強化学習で学習、瞬間的にピッチを合わせられるようなDJロボットを作る?
  • 曲の構造を解析し、ブレークやボーカルパートの位置を反映した上で、ミックスのタイミングをはかる。
  • 曲に合わせた適切なEQを行う。「低音のグルーブをキープしつつ、高音で遊ぶ」といったミックスが可能か。
  • 客が感情を共有する対象にロボットや初音ミクのようなCGのキャラクタ?はなりえるのか。
    DJのパフォーマンスには身体性が非常に重要です(音楽全般に言える)。ステージ上で客を煽るだけのセレブDJでも、そこに人がいるかどうかが客の盛り上がりに大きな影響をあたえる。AI DJを通して理解した一番の発見かもしれません。

Applying Creative Adversarial Networks in Music — CANの音楽応用

上で触れたCreative Adversarial Networks(CAN)のフレームワークを用い
て、新しいスタイルの音楽を作ることが可能か、というトライです。以前に一度試したときはうまくいかなかったのですが、もうすこし深掘りしたいところです。

  • Elgammal, A., Liu, B., Elhoseiny, M., & Mazzone, M. (2017). CAN: Creative Adversarial Networks, Generating by Learning About Styles and Deviating from Style Norms. Retrieved from http://arxiv.org/abs/1706.07068

Generative Music 2.0 — 生成音楽の次へ

センサーからの入力データに基づいて、変化する音楽を生成し続ける、というのはこれまでもやってきているのですが、そこに機械学習をとりいれることでできることの幅が広がるはず。

Toyota i-Road SOUND-X (Toyota/THA/Dentsu/Qosmo)

留意点

最後に研究会に入ってみようかなと考えている学生さんにいくつかお伝えしたいことです。

  1. 自主性

二刀流

昨年、大リーグの大谷翔平選手の活躍をTVで見ていて、あれはずるいなと思ったのを覚えています。バッターとしてどこに投げられると嫌かがわかった上でピッチングをする、ピッチャーとしてどこに投げにくいかを知った上でバッターボックスに立つ。二刀流は野球を深く理解する上で、実はとても合理的なスタイルなんじゃないか、とその時に思いました。

--

--

人の創造性を拡張する道具としてのAI。創造性の本質を写し出す鏡としてのAI。AI技術の研究と作品制作の両面から、わたしたちは新しい「つくる」をつくることを目指します。

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store