[CC Lab 20春] 研究・制作活動まとめ

本StoryはComputational Creativity Labの最終課題を兼ねています

慶應義塾大学4年のAtsuya Kobayashiです。Computational Creativity Lab (慶應義塾大学SFC徳井研究室 以下CCLab) での2020年春学期の活動についてまとめます。

Table of Contents

春学期は,主に以下の4つに取り組んできました。

  1. x-samplingプロジェクトの論文「ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds」の執筆と,NIME2020 (The International Conference on New Interfaces for Musical Expression) でのポスター発表
  2. AIを用いた音楽作品のプロトタイピング Drive and Listenの実装
  3. 自身の卒業研究 (と大学院での研究計画) についてのサーベイ
  4. 派生プロジェクトであるチャットツールに関する研究

では,順にまとめていきます。

はじめに 〜徳井研究室について〜

徳井研究室 (CCLab) のテーマは,人工知能技術を用いて 「新しい “つくる” をつくる」 ことにあります。作品の制作と最新の研究動向のサーベイを行う中で,“AIとは何か”“人間の創造性とは何か” を問い日々議論し技術力を磨いています。私自身はこの研究室でやりたいことが明確ながらも沢山あり,個人での卒業研究のテーマを模索しつつ,複数のプロジェクトに参加しています。

AI as a tool to extend human creativity.
AI as a mirror to reflect the essence of creativity.
Through research on AI and artistic endeavors,
we aim to create new ways of “creating” by taking these two aspects of AI in to account.

(cclab.sfc.keio.ac.jpから引用)

各プロジェクトは似た問題意識やスキルセット等を持つ学生が自主的に集まり,作品制作・研究を進めます。その中で,技術的な方面からのサーベイと,似たテーマをもつメディアアート・インスタレーション作品,ツールキットのサーベイの両方を行います。SFC (湘南藤沢キャンパス) の多くの研究室では学士の研究テーマから自分で決めるため,自身が持つ問題意識と何の表現がしたいのか,を強く考えながら進めることが非常に重要です。

私自身は主に,「音楽表現・音楽活動における人の創造性の拡張と,表現のためのツール (楽器やDAWソフトウェア) を使う上でのサポートを行うシステムは出来ないか,そのシステムにとっての適切なユーザーとのインタラクションはどのようなものか,最適なインターフェースはどのようなものか」 をテーマにし,そこから作品制作やシステムの考察を行っています。

x-samplingプロジェクト

x-samplingは,Reo Anzaiとの共同のプロジェクトです。

環境音の録音がそのまま楽器に
コロナウイルスの状況下でのオンラインパフォーマンスへの応用

コンセプト

徳井研究室でのプロジェクトには基本的に x の接頭辞が付きます。これは,SFCのXD (エクスデザイン) プログラム [1] の理念にある7つのX,eXperimental, Crossing, eXpression, eXpert, neXt, eXtreme に由来するものですが,本プロジェクトでは eXternalの意が強く込められています。

x-samplingでは,主に屋外で録音 (フィールドレコーディング / サンプリング)された環境音を楽曲に応用する際にかかる手順を深層学習とWebアプリケーションを統合することで自動化し,リアルタイムな環境音のパフォーマンスへの応用を可能にし,かつ音楽ライブにおける録音者が楽曲作品へ参加することによるインタラクティブパフォーマンスを提案しています。

本研究でのシステムの実装は昨年度に主に行っており,細かなアップデートと論文の執筆を行い,論文はNIME2020 [2] へ投稿,ポスター発表を行いました。

arXiv: https://arxiv.org/abs/2006.09645

技術的な内容について

System Overview

論文は主にシステムとインターフェースの実装についての記述が占めています。上のシステム概要図の通り,Webアプリケーションを通して録音者のスマートフォンから音を集め,その音が「どんな音なのか」を予測し,マッチする楽器の音を鳴らすDAWのトラックに自動で音がセットされます。Ableton Live上で録音場所の航空写真を表示するインターフェースにより,パフォーマーはその音がどんな場所で録音されたのかを確認できます。

分類結果とMIDIトラックへのマッピングの例

上記の音の分類は軽量な畳み込みニューラルネットワークのアーキテクチャであるMobileNetV2 [3] を応用し,Kaggle [4] のデータセットを用いて学習したモデルを応用しています。

さらなる発展へ向けて

本研究は大きく分けて2つの課題が残っており,1つ目として録音者が自身の音が活用されているであろうパフォーマンスをリアルタイムに体験するためのシステムが十分でない事が挙げられます。現状のシステムでは,音の録音を行っている自身のスマートフォンとは別のデバイスで,何らかのライブストリーミングサービスを用いて視聴する他ありません。録音と視聴を同時に行うアプリケーションは現状のWebAPIの実装では実現が難しく,別の解決方法を検討しています。

2つ目として,(コロナウイルスの状況下もあり)実際にフィールドレコーディングを実施しているアーティストや音楽パフォーマー,DJ等に利用されていないという点があります。ワークショップの開催やツールの公開を通して,多くの人にフィールドレコーディングやサンプリングの体験とそれによる音楽表現を楽しむことを提供することを目指します。

自身のテーマ・問題意識に立ち返ると,この研究は音楽表現に日常的に触れることが少ない人に向けた音楽表現活動とのインターフェースとしての位置づけられています。多くの人が日常的な身の回りの音 (雑音と捉えられがちですが) に対して音楽表現の側面から耳を傾けられればいいなと思っています。

Drive and Listen by x-music-generation プロジェクト

Drive and Listenはx-music-generationプロジェクトの作品として今学期制作しました。

デモ動画

上記の作品は,ドライブ中のワクワクを表現音楽で表現できないかというアイデアを発展させ,プロトタイピングしました。Kenta TanakaのUrban Sonificationや,QosmoのImaginary Soundscapeなどの作品からヒントを得ています。

開発初期のMaxパッチ

YOLOv2とYOLOv3 [5] による物体認識と,その結果(自動車やバイク,通行人,バス)などの近さや数を計測し,Max/MSPにて音への変換を行っています。また,非力なCPUマシンでの作品制作を可能にするためのプラットフォームとして,物体認識結果の時系列データを楽譜のような形でJSONにしそれを読むようなシーケンサの実装を行いました。

作品としてどう表現するか〜発展と課題〜

現状の作品は,ただ決まったルールに基づき,マッピングされた音を鳴らすソニフィケーションに過ぎず,より “音楽的” にするにはどうすればよいかを議論しています。具体的には,より正確で運転手視点のユーザーが認知しやすい (見えている風景と聞こえる音の紐付きを認識すること) サウンドのマッピングはどのようにすれば可能か,楽曲としての心地よさを実現するためにはどのようなコード・メロディ・ビートに変換するべきなのか,場所が変化 (例えば東京からミラノへなど人間ならひと目で分かる場所の変化) したら出力される音楽にどのような変化を付けるべきか,といったところです。

この研究・作品も同様に,日常的に音楽の創作に触れていない人に対して,日常的な風景の流れなどの時系列変化が音楽になりうることを示すインターフェースであり,同様にミュージシャンもメロディやビートメイクのアイデアの種として活用しうるシステムだと考えています。

個人研究「音楽表現における人工知能との対話型インタラクションに関する研究

こちらは私の卒業研究のテーマです。

AIを搭載したシステムの「操作」から「対話」へ

対話型のインタラクションによって,今まで手続き的であった複雑なAIのシステムの操作が宣言的になり,現在の社会に普及したという仮定のもと,それらのインタラクションを近年増えている,Google MagentaAWS Deep Composerなどの「音楽表現のためのAI」によるシステムに応用することでさらなるユーザビリティの向上が図れるのではないかという仮説を検証しようとしています。

ユーザビリティの評価の手法・基準と,最適なユーザーインターフェースのデザインと実装をどのように行うか,サーベイを行っています。例えば,Google MagentaがリリースしているMagenta Studioに対しての対話的なインタラクションの応用例として以下のようなデザインをプロトタイピングしました。

Google Magenta StudioのUIデザイン変更のプロトタイピング

上記のUXをどのように実現するか。システムの全体像として現状想定しているものは以下になります。

システム概要図

未発表なので細かくは書けませんが,私自身が今まで取り組んできた研究領域として,脳科学 (脳波データの解析と実験)・自然言語処理 (NLP, 主にR&D領域でのインターンシップから)があり,それらの知識を統合したアプローチになります。例えば,対話的な自然文の生成とユーザーが入力した自然文の分析には単語の埋め込み技術とニューラルなモデルを活用します。また,ツールの評価やUIデザインに対して認知科学的な評価手段を用いようと考えています。

それらに関わる今学期のサーベイとしては,主にMagentaのMusicVAE [6] によるシンボリックなメロディの生成と,Seq2Seqによる文生成と,ユーザーの音楽的な印象の自然言語表現をどのような空間に埋め込むことが適切かを調査していました。また,デザインに関してはD.Aノーマンの誰のためのデザイン?と,Lukas Mathisのインターフェースデザインの実践教室,また Nao Tokui (Qosmo)に薦めていただいた消えゆくコンピュータを読んでいます。

音楽AIを用いたチャットの研究

これは現在個人的にすすめているサブ・テーマであり,LINEなどのチャットツールに対してAIによる音楽の自動生成技術を応用することで,デジタルかつテキストのみのコミュニケーションに対して,エンターテイメント的なインタラクションを付与することを目指しています。今学期はチャット機能の実装と,先行研究調査を行いました。

プロトタイプのスクリーンショット

日常にあふれるチャットコミュニケーションの中で音楽が果たす可能性は計り知れませんが,ユーザーに対して生成されたメロディによって感動を与えたいと考えています。

おわりに

読んでくださりありがとうございます。以上が私が今学期取り組んできた研究内容になります。沢山の人と研究課題に対しての議論を行いたいと思っています。是非とも私のテーマに対しての疑問や共感がある方は気軽にコメント・コンタクトしていただけると幸いです。

Twitter: https://twitter.com/atsuyakoba
GitHub: https://github.com/atsukoba
Atsuya Kobayashi

--

--

Atsuya Kobayashi
Computational Creativity Lab at Keio SFC

Keywords: Interactive System on Musical Experience, Human-Artificial Intelligence Interaction, Brain-Machine Interface, Web-based System, Artwork Generation