Imaginary Soundscape — AIが「想像」するサウンドスケープ

Imaginary Soundscape — http://imaginarysoundscape.qosmo.jp/
NIPS 2017 Machine Learning for Creativity and Designで発表したショートペーパー Imaginary Soundscape: Cross-Modal Approach to Generate Pseudo Sound Environments について.
In English, please refer to this post.
デンバー空港 2002年

この音は、2002年に立ち寄ったデンバー空港で僕が録音したものです。この当時、イヤホン型の自作のバイノーラルマイクとMDレコーダー(!!)を常に持ち歩いていて、いろんな場所で音を撮ってました。録音のクオリティはそれほど高くはありませんが、これを聞くたびに初めての一人きりの海外旅行にドキドキする当時二十歳ソコソコの自分の不安と高揚感とを強烈に思い出します。

もう一つ、さらに私的なことで恐縮ですが… 僕の実家には、妹が生まれた時の病院の待合室の様子を録音したテープがあります。そわそわする父とそれをなだめる祖母、よくわかっていない僕(笑) 妹のオギャーという元気な声が響いた直後に、「お兄ちゃんになったよ」という祖母の声… 当時3歳だった自分もなんとなく記憶があるのですが、それが本物の記憶なのか音からあとで想像した記憶なのかは曖昧です。


改めていうまでもなく、音にはその場所の光景を(時として映像以上に)鮮明に思い起こさせる力、その場の雰囲気や匂いまでをも想起させる力があります。

僕は昔からこういった音、音から想起される風景、サウンドスケープ(soundscape)に強い興味を惹かれてきました。最近では360度動画を撮るカメラ用のマイクを自作したりといったこともやってます(大手の音響メーカーがこぞってこの領域に参入してくる少し前の2015年のことです)。見る方向にあわせて、音の定位が変化するのがポイントなのですが、VRブームが喧伝される中、視覚偏重の世の中に対する異議も込めたつもりです。

Ambisonics360マイク — 2015

一方で、2016年に携わったBrian Enoのミュージックビデオ「The Ship」の制作では、写真を通してAIが人間の歴史を振り返るという仕組みを構築しました。刻々と流れてくるニュース写真に「類似」する写真を歴史的な写真アーカイブの中から選択していくという仕組みです。

システムのテスト中には下の写真のようなことがおきました。左が入力画像、右がAIが選択した類似画像です。これを見て、AIが妄想を膨らませているようで(それが人間の目からは間違いだったとしても)面白いと思うと同時に、ドキっとさせられたのを覚えてます。 (Brian Eno’s The Ship — A Generative MovieについてはWiredにインタビューの記事を参照ください)

左が入力画像. 右が画像認識のエンジンが選択した類似画像

この、AIに「想像」させる、あるいは「妄想」をさせるというのが最近の自分の大きなテーマの一つになっています。想像・妄想である以上、そこに100%正確な答えはありません。かといって、的外れすぎても当然意味がない… このバランスの難しさ、面白さはここ数年続けているAI DJプロジェクトでも強く感じるところです。

と、ここまでが前置きでここからが本題。

最初にあげた音の風景 サウンドスケープと、妄想するAIへの興味が掛け合わされたのが、今回制作したWebサイト、Imaginary Soundscapeです。

上では音から想起される風景について書きましたが、逆に人は一枚の写真からその場にいたら聞こえてくるであろう音を想像することができます。海辺の写真からはさざなみの音を、渋谷のスクランブル交差点の写真からは信号の音、雑踏と車のホーンの音、広告の声を、といった具合です。果たして同じことがAIにできるのかというのが、出発点でした。
もしできるのであれば、Googleストリートビューにその音をつけたらどうなるだろうか、AIが妄想する仮想のサウンドスケープの中を散歩できたら… そんなことを考えて制作しました。

人は一枚の写真からその場にいたら聞こえてくるであろう音を想像することができる. AIにも同じことが可能だろうか?
もしできるのであれば、Googleストリートビューにその音をつけたらどうなるだろうか、AIが妄想する仮想のサウンドスケープの中を散歩できたら…

折しも写真と音、写真とテキスト、音とテキストといった具合に、メディアや感覚を超えて共通する特徴を抽出するというCross-modalモデル(この場合、modalとは聴覚や視覚といった感覚の様式のこと)の研究が進んでいます。その中のいくつかは Createwith.aiでも紹介しました。

僕のお気に入りは YouTubeに上がっている大量のミュージックビデオをつかって、その画像と音の関係を学習したという研究です。ある画像に対して、「それらしい音楽」を、逆に音楽に対して「それらしい画像」を見つけることができます (ちょっとワルそうなお兄さんたちのグループにはヒップホップが、新郎新婦の写真にはさわやかなギターポップが選ばれているのがわかります)

Cross-Modal検索の研究 — Deep Learning for Content-Based, Cross-Modal Retrieval of Videos and Music

今回のImaginary Soundscapeの実装は、MITのグループが発表したSoundNetという研究を基にしました。SoundNetの中身を簡単に紹介するとこうなります。

音のスペクトル画像に対して、画像認識でよく用いられる畳み込みニューラルネットCNNのモデルを用意します(モデルSとします、下図で青で表現されてます)。このモデルを学習させるわけですが、ポイントはすでに研究が進んでいて、高い精度が保証されている画像認識用のモデルを「お手本」にするという点です(モデルIとします)。

SoundNet: Learning Sound Representations from Unlabeled Video

大量の動画を用意し(同研究で使ったのはFlickrの100m dataset)、ある動画の特定のタイミングのフレームの画像情報とその時の音を取り出します。音のスペクトル画像を音のモデル、モデルSに入力した時の出力が、当該の画像を画像認識用のモデルIに入力した時の出力の分布となるべくそっくりになるように、モデルSを学習していきます。こうして音の種類をその音に紐づいたモノや風景によって識別するモデルが作れるわけです。ここでいう出力は、その音や画像の特徴をコンパクトに数値で表現しているもので、特徴量と言い換えることもできます。(SoundNetでは、写っているモノと場所の両方を加味するために、一般的な画像認識で用いられるImageNetのモデルだけでなく、場所の識別に特化したPlacesのモデルも併用しています。上の図の上の二つのモデル)

いったんこの学習が終われば、あとは比較的簡単です。未知の画像をモデルIにいれたときの出力に似た出力(特徴量)を持つ音を、あらかじめ用意した大量の音のファイルの中から探せばいいのです。freesound.orgからCreative Commonsライセンスで公開されている環境音を15000ほど使わせてもらっています(サウンドスケープらしい音のみを選別するためにも、スペクトルに対するCNNを別途学習して利用しました)。

裏側の仕組みは以上です。今回ブラウザ上で動かすために、kerasで学習したモデルをJavaScriptベースのwebdnnに変換して利用しています。ブラウザでDeep Learningのモデルを動かすのは初めての経験で、われわれとしても非常に勉強になりました。Webの構築、SoundNetの学習などにQosmoのインターンの梶原くんが主に担当しています。

実際にできあがったものは、上にもあげたURL からアクセスしていただけます。現在、PCのChrome, Firefoxのみに対応していて、スマホやSafariには対応していないのでご注意ください。Google Street Viewのなかを自由に移動したり、当たり前ですが地名で検索したりできます。自分の家や思い出の場所の音をぜひ聴いてみてください。

下の動画はシステムですこし遊んでみたなかで面白かった部分を抜粋したものです(ちょっと音が小さいのでボリュームを上げて聞いて見てください)。特に面白かったのは、教会などの天井が高い屋内では反響(リバーブ)が強い音が選ばれていて、風景の中の音響的な特性まで音に反映されているように見える点です。東京ドームのシーンはサーキットと見間違えているようですね。

さらに… 梶原くんが中心になって書いたショートペーパーがNIPS2017のMachine Learning for Creativity and Designに採択されました。もう少し詳しい技術情報についてはそちらを参照してください。

Imaginary Soundscape: Cross-Modal Approach to Generate Pseudo Sound Environments Yuma Kajihara, Shoya Dozono, Nao Tokui

AIが想像する音が人間の想像力を触発する、そんなシステムを目指して制作したImaginary Soundscape。いかがでしたでしょうか。こうした作品が、AIに関する意識をあらためる、あるいはサウンドスケープに対するアウェアネスを高めるきっかけになれば幸いです。


追記 — Cross-Modalモデルの研究は日々進んでいて、Imaginary Soundscapeを発表した直後にも画像の情報をもとに直接波形を出力する研究が発表されています。いままでなかなか数値化できなかった人間の感覚の部分を定量化、比較できるという意味で非常に面白い分野なので今後も注目していきたいと思っています。