2019年4月。Computational Creativity Labが始まります! at SFC
update: 2021/2
創作活動、創造性とAIの未来像を書いた拙著『創るためのAI — 機械と創造性のはてしない物語』がBNNから発売になりました。この記事で書いている内容にも触れています。ぜひお手にとってみてください。
すでにいろんなところで書いているのですが、この4月から慶應義塾大学SFCに准教授(有期)として着任することになりました。4月に10年目を迎えるQosmoとの両立ができるのかも含めて、自分にとっては新しいチャレンジが始まります。
SFCでは、Computational Creativity Labと題した研究室を始めます!
Computational Creativity。日本語でうまく訳せないので、いまは英語表記のまま扱うことにします (研究会を進める中で良い日本語訳も考えたいところ)。当該分野に関する総合的な国際学会、ICCC(International Conference on Computational Creativity)によると、Computational Creativityとは
特定の役割を果たすことで、先入観を持たない観察者が創造的(creative)とみなすであろう振る舞いをみせる、計算(computational)システムに関するアート、サイエンス、哲学、エンジニアリングのことを指す
Computational creativity is the art, science, philosophy and engineering of computational systems which, by taking on particular responsibilities, exhibit behaviours that unbiased observers would deem to be creative. [ICCC 2018 Proceedings]
と定義されています。創造性という扱いにくいテーマに対して、対象を分解して解析するのではなく、まずは創造的と「みなせる」ものを外在化・システム化する、人間の外側に作ることによって、理解を深めていこうという立場です。
僕はこれいつも「鏡を作る」と呼んでます。自分がどういう顔をしているのか自分ではよくわかりませんが、鏡を通して詳しく観察することができます。鏡を作ることができれば、今度はお化粧することができます。 化粧というと表面的に聞こえるのですが、要は創造性を高めるための「道具を作る」ということです。Computational Creativity Labでは、「鏡を作る」「道具を作る」、この両面からのアプローチを試みます。
シラバスを見て興味持ってくれた学生から、研究会(SFCでは研究室ではなく研究「会」と呼ばれています)の方向性についてすでに多数質問が来ています。研究会が二つに分かれていたりして、若干わかりにくいところもあったかと思うので、改めてここでまとめて説明させていただきます。
研究会の単位としては、二つの研究会を持つことになっているのですが、これはあくまで便宜的なもので内容は相互にオーバーラップしています。
アルゴリズムや技術的な基礎に研究の重きを置きつつ、(音楽を含む)表現の領域への応用を探る”AI and Creativity”と、特に音楽に対象を絞ってアウトプットの方からAI技術にアプローチする”X Music”の二つです。X Musicの方はその名の通り、パトリック・サベジさん、藤井進也さんが共同で運営されている、X Music研究会と共同での運営になります。前者が「鏡を作る」、後者が「道具を作る」におおむね対応していると考えてください。鏡がないとお化粧できないですし、お化粧という用途があることで鏡の価値が上がる、と考えると、二つが密接に関わっていることが理解できると思います。
AI/Deep Learningの技術自体に興味がある、音楽以外の表現、グラフィックや言葉に関する表現に取り組みたい人は前者を、とにかく新しい音楽を作りたいという人は後者を選択してください。新しいアルゴリズムを自分の手で作って、だれも聴いたことがない音楽を作りたい、という僕のような人は両方の受講することをおすすめします。
詳しい研究会の内容や募集要項はシラバスを参照してもらうとして(もし他の大学の方や高校生で興味があるという人は個人的にメール(tokui (at) sfc.keio.ac.jp)をもらえたら、シラバスの内容を転送します。ここではより具体的に、それぞれの研究会でこれから取り組むプロジェクトを紹介します。まだアイデアレベルなので簡単ですが、なんとなく研究会の雰囲気は伝われば幸いです。
ちなみに…「徳井研でも論文を書いたりするんですか?」という質問があるのですが、論文も作品制作同様に力を入れていきます。僕個人としては、それがしたいがためにアカデミックな世界に戻ってきたという側面もあります。
Computational Creativity Lab:
AI and Creativity
What is Creativity? - 創造性とは
この研究室の根本にあるテーマがこれです。音楽を例にすると、たとえばDeep Learningでバッハの楽曲を学習することでバッハらしいメロディーやハーモニーを生成することはできるかもしれません。実際に音楽とAIの領域でこういった研究が多数なされています。しかし過去の音楽をAIで生成できたとして、はたしてどのくらい意味があるでしょうか。過去のヒット曲を学習して。。。というのも同じです。囲碁や将棋のようにルールがはっきりしているゲームのような場合と異なり、音楽には明確な評価基準がありません。あるのは人が作った学習データ、過去の名曲群だけです。それらを学ぶことで聴いたことがないような創造的な音楽、新しいジャンルをつくりあげることはできるのでしょうか。その前に創造的とはどういう意味なのかを考える必要もあります。
Creativity is the ability to come up with ideas that are new, surprising, and valuable — Margaret Boden
心理学や美学の研究者を中心に、アーティストが新しい表現を作り上げる際のこころの動き、思考パターンについて研究がなされています。最初に書いたように、Computational Creativityの研究領域では、創造的な振る舞いをしているとみなせるシステムを組み上げることで、創造性とは何かを考えます。また別の文脈でパターンランゲージなどを用いた創造性研究も盛んですね。
たとえば、Colin Martinedaleは、「アーティストは常に定まった領域の中での表現によって受け手の期待に答えようとする意識(マンネリ)と、その外側にある未知の領域を開拓しようとする欲求の板挟みになっている、優秀なアーティストほど、このバランスをとるのがうまく、適度に受け手の期待を裏切って新しい領域を切り開くことを繰り返すことで、受け手の許容範囲自体を広げていく」としています。
心理学ではWundtカーブが有名ですね。「人は本能的に新規性を求める生き物ではあるものの、許容範囲を越えて突飛すぎると、今度はそれを忌避する心理が働く」 というものです。どちらも、王道の答えからの適切な「ずれ」「間違い」が重要というわけです。ではどのくらいのズレが適切なのでしょうか。それが次に述べる、感覚の定量化という研究につながります。
参考/関連資料
- The Clockwork Muse — The Predictability of Artistic Change” Colin Matindale
- Schmidhuber, J. (2010). Formal theory of creativity, fun, and intrinsic motivation (1990–2010). IEEE Transactions on Autonomous Mental Development, 2(3), 230–247. https://doi.org/10.1109/TAMD.2010.2056368
- McCormack, J., & D’Inverno, M. (2012). Computers and Creativity, 1–430. https://doi.org/10.1007/978-3-642-31727-9
- Boden, M. A. (2003). The creative mind: Myths and mechanisms: Second edition. The Creative Mind: Myths and Mechanisms: Second Edition. https://doi.org/10.4324/9780203508527
- Hertzmann, A. (2018). Can Computers Create Art? Retrieved from http://arxiv.org/abs/1801.04486
Quantifying feeling/synesthesia — 感覚、共感覚の定量化
Deep Learningの面白いところは、人がなんとなく共有している「感覚」を定量化できるようになったということだと思っています。たとえば、Imaginary Soundscape(Qosmo, 2017)では、Image ⇄AudioのCross Modalな(複数の感覚をまたいだ)モデルを用いることで、人がある写真を見たときに想像するであろうその場所のサウンドスケープを生成するということをやりました。
同じ考え方はさまざまな領域で応用可能です。たとえば、車窓の外に広がる風景を元に適切なドライブのBGMを選んだり、ファッションから好きそうな音楽を選んだりといったことも可能かもしれません。同様にテキストと画像、音とテキストの間でも実現可能です。感覚、もっというと共感覚の定量化は(次に述べるズレの考え方を加えることで)とても面白い研究トピックだと感じています。
参考/関連資料
- Kajihara, Y., Dozono, S., & Tokui, N. (n.d.). Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments. Retrieved from https://nips2017creativity.github.io/doc/Imaginary_Soundscape.pdf
- 連想の学習 — See, Hear, and Read: Deep Aligned Representations http://createwith.ai/paper/20170607/789
- 音楽⇄動画のクロスモーダルな検索技術 — Deep Learning for Content-Based, Cross-Modal Retrieval of Videos and Music http://createwith.ai/paper/20170726/903
What is “Boke” “Zure”? — ズレ、ボケ、はずしの研究
人が持っている感覚を定量化できるようになったと書きましたが、定量化できるということは、ぴったりくる答えを返すだけではなく、あえてすこしズレた答えを返したり、どのくらいハズすのかをコントロールできることになります。あとで書くAI DJ Project (Qosmo 2016)でも、「正解」の曲ではなく、そこからすこしずらした曲をかけることが、選曲の適度な意外性につながりました。お笑いやファッションの世界をみていると、この「ズレ」「はずし」にこそ、創造性のエッセンスが詰まっているようにも感じます。その際に、どのくらい・どのようにずらすのが、よいのかというのは難しい問題です。Deep Learningによる定量化が、そういった疑問に新しい光をあてられるかもしれません。
Creativity is allowing yourself to make mistakes. Art is knowing which ones to keep. — Scott Adams
またAIのシステムが、学習データ自体が内包する格差や偏見を助長するようなことはさけなければなりません(ごつい革ジャンを着てるからといってパンクロック好きとは限りません笑)。そういう意味でもAIのモデルを利用しつつ、適度にそこから外そうとする意識が重要になってくるかと思います。
参考/関連資料
- 「異質な知性」としてのAIが、人間の創造性を拡張するとき
https://medium.com/@naotokui/d83d7fd18943
Expanding Creative Adversarial Networks(CAN) — ずれのシステム化
CANは、Generative Adversarial Networks(GAN)をベースにしたアルゴリズムで、絵画のデータセットを元に新しい絵画のスタイルを生成するという試みです。
一般的なDiscriminator(識別器, D)に加えて、絵画のスタイルを判定するDをもう一つ追加。過去のどのスタイルにあてはまるのか「判定しにくい」「あいまい」なものを高く評価するように設定しました。こうすることで、「絵画っぽさ」を担保しつつ、単に過去の作品のパターンの踏襲にとどまらない、新しいスタイルを獲得しようとしたわけです。これは上記のWundtカーブやMartindaleの理論の考え方をそのままシステム化したものと言えます。
参考/関連資料
- 過去の作品を学習することで本当に新しい作品が作れるのか?? http://createwith.ai/paper/20170629/839
- Elgammal, A., Liu, B., Elhoseiny, M., & Mazzone, M. (2017). CAN: Creative Adversarial Networks, Generating by Learning About Styles and Deviating from Style Norms. Retrieved from http://arxiv.org/abs/1706.07068
Generating Lyrics and Texts — 文章・歌詞の生成
僕は実は音楽と同じくらい読書、しかも小説を読むことが好きです。小学生の時に、コンピュータをはじめて触ったときにやったことは、BASICのプログラミングではなくて、学校で演じる劇の脚本を書くことでした。「ことば」には以前から深い関心は持ってきました。これまでにAIヒップホップバンド?で韻を踏んだリリックの生成や、カラオケ動画からカラオケの歌詞を生成するなんてこともやってきました。この系統の研究も進めていきたいと思ってます。
参考/関連資料
- Video Lyrics (Dentsu Lab Tokyo / Qosmo)
- The Latent Future — 潜在する未来 (徳井直生/堂園翔矢) — インスタレーション
http://naotokui.net/2017/06/the_latent_future_j/
Making GANs Interactive
ここはまだアイデアがなく、ぼんやり考えている程度ですが、Generative Adversarial Networks(GAN)をつかったインタラクティブな作品・システムを作りたいと考えています。Fake Newsが量産される危険性を含め、その社会的なインパクトを示唆するような作品もあわせて考えたいです。
Computational Creativity Lab:
X Music
こちらはより具体的なテーマがすでにいくつかあります。
Updating Microsampling — 21世紀のサンプリング技法の開発
楽器認識, ボーカル認識などを組み合わせて、大量のサウンドファイルから、いかに適切なサンプルを選択するか。人がサンプリングにおもしろさを感じるのは、どういう時なのか。
サンプリングの技法をDeep Learningでアップデートすることを考えます。
参考/関連資料
- 2019年のAkufen? − Deep Learningを用いたマイクロサンプリングと音楽制作 https://medium.com/@naotokui/-28ecaa3bd838
- Gururani, S., Summers, C., & Lerch, A. (2018). Instrument Activity Detection in Polyphonic Music Using Deep Neural Networks. Ismir. Retrieved from http://www.musicinformatics.gatech.edu/wp-content_nondefault/uploads/2018/06/Gururani-et-al.-Instrument-Activity-Detection-in-Polyphonic-Music-.pdf
Demystifying Dilla Beats — グルーブのあるリズム生成
リズムの生成の研究はたくさんやられている中で、いわゆるノリ、グルーブをきちんと追求したリズム生成の研究は少ないように思います。
Akai MPC、Roland TR-909などの名器の独特のリズムのノリを再現できるか。?uestloveに酔っぱらった三歳児がドラムをたたいているようだといわせたJ Dillaのリズムから、Kraftwerkのようなかちっとしたリズムまで、グルーブをコントロールできるようなリズム生成モデルを実装できるのか、挑戦です。
参考/関連資料
- Borghuis, T., Tibo, A., Conforti, S., Canciello, L., Brusci, L., & Frasconi, P. (2018). Off the Beaten Track: Using Deep Learning to Interpolate Between Music Genres. Retrieved from http://arxiv.org/abs/1804.09808
- Hutchings, P. (2017). Talking Drums: Generating drum grooves with neural networks. Retrieved from http://arxiv.org/abs/1706.09558
- Vogl, R., & Knees, P. (2017). An Intelligent Drum Machine for Electronic Dance Music Production and Performance. NIME 2017 Proceedings of the International Conference on New Interfaces for Musical Expression. Retrieved from http://www.nime.org/proceedings/2017/nime2017_paper0047.pdf
- Deep Learningを用いた音楽生成手法のまとめ [サーベイ] https://medium.com/@naotokui/1298d29f8101
AI and DJ
2016年前後から続けているAI DJ Project。AIのDJと人のDJが交互に一曲づつかける(Back to Back)スタイルでのDJパフォーマンスです。このプロジェクトを通して、DJという行為の奥深さをますます感じています。AI DJ Projectで見えてきた、問題点を起点に、DJという行為にもうすこし深く切り込んでいきたいと思います。
# 選曲モデルのアップデート
- 起承転結、ストーリー性のある選曲をするには?
現状のモデルは一曲単位の連続性しか考慮できていません。上手なDJは選曲によって物語を語るといいますが、ひとつのパフォーマンスの中での選曲に起承転結をつけるにはどうしたらいいのでしょうか。 - 楽曲の解析技術を元にしたミックス
上で述べた楽器の認識や、リズムのノリの解析ができれば、音の構成の相性がいい曲、ノリがぴったりくる曲を探したりできるはず。 - サンプリングネタや歌詞の内容、曲が作られた場所などの曲に付随するメタ情報の関連性のみをつかった「うんちく」DJモデルが作れるか?
# ミックスのアップデート
- ターンテーブルのコントロールを強化学習で学習、瞬間的にピッチを合わせられるようなDJロボットを作る?
- 曲の構造を解析し、ブレークやボーカルパートの位置を反映した上で、ミックスのタイミングをはかる。
- 曲に合わせた適切なEQを行う。「低音のグルーブをキープしつつ、高音で遊ぶ」といったミックスが可能か。
# DJのEmbodiment (実体化)
- 客が感情を共有する対象にロボットや初音ミクのようなCGのキャラクタ?はなりえるのか。
DJのパフォーマンスには身体性が非常に重要です(音楽全般に言える)。ステージ上で客を煽るだけのセレブDJでも、そこに人がいるかどうかが客の盛り上がりに大きな影響をあたえる。AI DJを通して理解した一番の発見かもしれません。
ここで書いている研究は、単にDJの研究にとどまりません。DJというのは、人間の数値化できない感覚、ノリやグルーブをコントロールし、オーディエンスの期待にこたえつつ、それを適度に裏切ることが期待されます。どこかで聞いたことがあるような文章ですよね。そうです、ここまで述べてきた創造性とAIに関する要素がすべて詰まった行為なのです。AIとDJという領域を深く掘り下げるとそれだけで博士論文がかけるかもしれませんね。
最終的には以前ライゾマの真鍋君と開催したAI DJイベント 「2045」でやりたかったこと — 各DJが自分のAIアルゴリズムを持ち寄ってDJバトルをする — を、SFCの学生でやれたら、なんてことも考えています!
参考/関連資料
- AI DJ Project — A dialog between human and AI through music
https://medium.com/@naotokui/abca9fd4a45d
Applying Creative Adversarial Networks in Music — CANの音楽応用
上で触れたCreative Adversarial Networks(CAN)のフレームワークを用い
て、新しいスタイルの音楽を作ることが可能か、というトライです。以前に一度試したときはうまくいかなかったのですが、もうすこし深掘りしたいところです。
参考/関連資料
- Elgammal, A., Liu, B., Elhoseiny, M., & Mazzone, M. (2017). CAN: Creative Adversarial Networks, Generating by Learning About Styles and Deviating from Style Norms. Retrieved from http://arxiv.org/abs/1706.07068
Generative Music 2.0 — 生成音楽の次へ
センサーからの入力データに基づいて、変化する音楽を生成し続ける、というのはこれまでもやってきているのですが、そこに機械学習をとりいれることでできることの幅が広がるはず。
参考/関連資料
- Gossip is Philosophy — Brian Eno (1995年のWIREDインタビュー)
https://www.wired.com/1995/05/eno-2/
繰り返しですが、ここで挙げたテーマはあくまでも僕が現時点で考えているテーマなので(根っこのところは変わらないと思いますが)細かいテーマはこれから研究会のメンバーと議論しながら決めていければと思います。
留意点
最後に研究会に入ってみようかなと考えている学生さんにいくつかお伝えしたいことです。
- 自主性
僕はSFCで教えると同時に、自分の会社の代表ともうすこし大きい組織の役職を兼務していて、自分の時間の少なくとも半分はそちらに使います。手取り足取り教えるというのは難しいので、学生には自分自身で考えて動くことを期待します。
2. 卒業後…
「僕がここにいるのは、君たちが就職できないようにするためです。」
とあるMITの教授が、新入生に必ず言う言葉だそうです。就職する、というのは他人が決めた既存の社会の仕組みに自分を当てはめること、就職するのではなく、それまで存在しなかった仕事を自分で創り出せるようになって欲しい、というのがこの言葉の真意だそうです
僕はそこまでは言いませんが、すくなくとも就職活動が当たり前のこととして鵜呑みにするのではなく、いったん疑ってかかれるような視座をもった学生が育ったらいいなと思っています。そのうえで就職を「選択」するのであれば、大いに応援します。まだよくわからない領域にあえて飛び込んでみる、新しい職種・肩書きを作る、そういった意識をもった学生こそ、いまの社会で必要とされていることは間違い無いでしょう。実際、今の大企業で求められているのも、そういう学生だと思います。
3. 一期生
当たり前ですが、今年僕の研究会に入る学生は徳井研の一期生ということになります。まだ卒業生どころか先輩もいないので、どんな研究会になるのか、よくわからないというのはあると思いますが、裏を返せば、学生の自由度が高いとも言えると思います。僕自身、東大では伊庭斉志教授(当時は助教授)の研究室の一期生でした。そこで、当時の東大工学部では珍しかったテクノロジーと表現に関する研究に従事しました。伊庭先生が非常に寛容で、僕の自由にやらせてもらえたというのもありますが、先輩がいなかったというのが実は大きかったのかもしれません。ということで、やる気のある学生にとって一期生であるというのは大きなチャンスだと思います 😉 (X Musicにはサベジ研、藤井研の学生さんがすでにいます)
二刀流
昨年、大リーグの大谷翔平選手の活躍をTVで見ていて、あれはずるいなと思ったのを覚えています。バッターとしてどこに投げられると嫌かがわかった上でピッチングをする、ピッチャーとしてどこに投げにくいかを知った上でバッターボックスに立つ。二刀流は野球を深く理解する上で、実はとても合理的なスタイルなんじゃないか、とその時に思いました。
僕自身、10年間会社を経営することで、企業から見てどういった技術が、どういった素質を持った若者がいま社会で求められているのか、肌身で感じでいます。今度は大学教員の立場で、技術の最先端であったり、今の若い世代の考え方に触れ、社会・企業がどう変わって行くべきなのかをより深く考えたいと思います。大谷選手と比較するのはおこがましいですが、僕なりの二刀流です。
Computational Creativity Lab。
一緒に学び、成長できるような場にしていきましょう!
研究会・進学について質問があれば tokui (at) sfc.keio.ac.jpにメールしてください。お気軽に!