[CCLab 20秋] 音楽とヒューマン・コンピュータ・インタラクション研究の動向と実践

目次

  • はじめに 〜徳井研究室について〜
  • 音楽とヒューマン・コンピュータ・インタラクション研究
  • 自然言語表現によるエレクトリックギターの 音作り支援システム「Linguitone」の開発

はじめに 〜徳井研究室について〜

春学期の記事からの転載です)

徳井研究室 (CCLab) のテーマは,人工知能技術を用いて 「新しい “つくる” をつくる」 ことにあります。作品の制作と最新の研究動向のサーベイを行う中で,“AIとは何か”“人間の創造性とは何か” を問い日々議論し技術力を磨いています。

AI as a tool to extend human creativity.
AI as a mirror to reflect the essence of creativity.
Through research on AI and artistic endeavors,
we aim to create new ways of “creating” by taking these two aspects of AI in to account.

各プロジェクトは似た問題意識やスキルセット等を持つ学生が自主的に集まり,作品制作・研究を進めます。その中で,技術的な方面からのサーベイと,似たテーマをもつメディアアート・インスタレーション作品,ツールキットのサーベイの両方を行います。SFC (湘南藤沢キャンパス) の多くの研究室では学士の研究テーマから自分で決めるため,自身が持つ問題意識と何の表現がしたいのかを強く考えながら進めることが非常に重要です。

私自身は主に,「音楽表現・音楽活動における人の創造性の拡張と,表現のためのツール (楽器やDAWソフトウェア) を使う上でのサポートを行うシステムは出来ないか,そのシステムにとっての適切なユーザーとのインタラクションはどのようなものか,最適なインターフェースはどのようなものか」 をテーマにし,そこから作品制作やシステムの考察を行っています。

音楽とヒューマン・コンピュータ・インタラクション研究

ソフトウェアや I/O デバイス,インターフェースに始まり可視化 ・可聴化 ・マテリアルなど,ヒトと情報技術との相互作用全般について研究する分野であるヒューマン・コンピュータ・インタラクション(HCI)の中でも音楽について扱う領域Music and HCIがあります。

Open Univesity Music Computing LabのSimon Hollandの著書Music and HCIの中で,その研究領域について

Music Interaction encompasses the design, refinement, evaluation, analysis and use of interactive systems that involve computer technology for any kind of musical activity”

とあり,研究の対象とモチベーション,アプローチはかなり多岐にわたりることがわかります。また,竹川らの研究報告[1]には,作編曲支援楽器製作支援学習支援の3つの側面から音楽とのインタラクション研究がまとめられています。それらに加え,近年の人工知能技術の発展やAR(拡張現実),VR(仮想現実)環境の普及と発展に伴い,新たな領域での作品やエクスペリエンス・デザイン(XD)や音楽の生成への応用研究が増えているのも事実です。

そこで,音楽とヒューマン・コンピュータ・インタラクション研究事例におけるアプローチを以下の5つに分類しました。

音楽とHCI研究における多様なアプローチ

これらの分類は完全に切り離せるものではありませんが,本稿ではこれらの側面から研究事例をいくつか紹介し,自身が卒業研究として取り組んだ内容についても記述します。

Ⅰ.楽器製作支援(音楽制作環境)

新しい音楽インターフェースの国際学会であるNIME(New Interfaces for Musical Expression)や,情報処理学会音楽情報科学研究会(SIGMUS)などで多くの新しいデジタル楽器(DMI — Digital Musical Instrument)が発表されてい゙ます。それら電子楽器を製作するためのプラットフォームとして,IRCAMが 90 年代から開発を行っている OpenMusicをはじめ,MaxPureDataTidalCyclesFAUSTChuck,九州大学の松浦さんが開発しているMimiumなど,作曲のためのプログラミング環境やライブラリが数多く開発されています。ハードウェアによる楽器のプロトタイピングには, ArduinoやGainerなどが用いられることが多いです。それらハードウェア・ソフトウェアの通信には,MIDIやOpen Sound Control(OSC)が用いられており,Libmapperなどの通信用ライブラリも開発されています。RMCP(Remote Music Control Protocol)や,一昨年に38年ぶりにアップデートされたMIDI2.0のように,コンピュータ音楽のための新たな通信プロトコルに関する研究開発も存在します。

Faustでモジュレータ付きポリフォニックシンセサイザーを実装する

Ⅱ.作編曲支援(ソフトウェアによる支援)

コンピュータを用いて数理や外部の因子によって作曲を行う環境を提供することで,人間の作曲編曲を支援するシステムの開発や研究が進んでいます。

東大嵯峨山研の Orpheus(2006)は,ユーザーが入力した歌詞に合わせ自動で作曲 が可能な自動作曲システムであり,入力言語の形態素解析の後,韻律推定が行われ音符に割り当 て,典型的なリズムパターンを「標準リズム」として定義し割り当てていくことで生成を行います。

MIT Media Lab の Opera of the Future による Hyperscore(2012)は,縦軸に音高, 横軸に時間が割り当てられているユーザーインターフェースに, ペンツールで描画することで作曲ができ,ペンの色によって音色を変えられるというものです。かつてのクセナキスによるコンピュータUPICのもつインターフェースと類似した,作曲における直感的なインタラクションを実現しています。

Sony CSL が2014年以降研究開発を進めている FlowMachines: AI Assisted Music は,音楽においてクリエイターの創造性を拡張することを目指す研究開発兼社会実装プロジェ クトとして多数のプロダクトを生み出している。

Ⅲ.学習支援

今日ではビデオゲームによるピアノ・ギター演奏(Rocksmithなど)も普及し,電子楽器に備え付けのチュートリアル機能(V-Drumsなどにはトレーニング機能が付属)なども多く存在しますが,カーネギーメロン大学で開発されたピアノの練習を支援するシステム Piano Tutor(1990)[4] は,人工知能技術による演奏学習の支援のさきがけ的研究です。演奏追従認識による自動譜面めくり・ビデオや音声による模範演奏の提示・練習者の演奏データの解析と改善点゙の指示などが可能となっており,驚きです。

近年のものでは,運指認識技術を活用し直接鍵盤上へ情報を投影して練習支援を行うシステム(2011) [3] や,記録したドラム演奏における打叩時刻のずれと打叩強度の情報からその演奏の特徴に関す る計 31 通りの特徴パラメータを抽出し,そこから演奏熟達度の推定値を算出してフィードバッ クを行うドラムの練習支援システム(2015)[4] などが発表されていま す。また,東大矢谷研 (iis-lab) の研究 Strummer [5] は,コードラベルが付与された 727 曲分の楽曲データを利用し,音響信号解析によってユーザが正しいコードを弾いたのかを認識してフィードバックを行うシステムで,5人のギター初心者が計5時間ずつのギター練習を行った後に評価を実施しています。

Ⅳ.音楽の生成

初のコンピュータてによる作曲(楽譜の生成)は 1957 年の ILLIAC による「弦楽四重奏のためのイリアック組曲」で,マルコフ連鎖と乱数生成に基づいて音高列を生成するモジュールと生成結果の判定を行うモジュールから成り立ち,対位法と和声に基づいたルールでの判定を行っています。

イリアック組曲

コンピュータはより普及すると,アルゴリズミックコンポジションと呼ばれる,アルゴリズムや一定の手続きによる決定的・確率的な作曲手法に多く用いられていきました。

その後は,統計モデル等によるメロディやリズムパターン,コード進行の生成を行う研究が増え,近年ではニューラルネットワークによる音楽の生成手法も多く提案されています。MIDIの系列や五線譜等を生成する(シンボリックドメイン)手法と,波形を直接生成する(オーディオドメイン)手法のアプローチが存在します。

Google Magentaからは既にプラグインとしてメロディの生成(MIDI)が可能なソフトウェア Magenta Studioがリリースされており,OpenAI のJukeboxなどを始めとした,生成された音楽を視聴できるWebサイトやBoomyのような作曲サービスも多数登場しています。

GoogleによるMagenta Studio (Ableton Liveプラグイン)

Ⅴ.音楽体験拡張・創造

音楽の演奏体験や視聴体験の多感覚化や新しい体験の創出を目指したインターフェースやプラットフォーム等の研究開発が進んでいます。

有名な新しい音楽インターフェースの例として挙げられるのは,ヤマハが1995年に発売した,センサーやスピーカーを組み込むウェアから構成された新しい楽器 Miburi です。演奏者の指・手首・肘・肩・足にセンサをつけることで演奏者の体の動きやステップに応じた演奏が可能となっており,多くの演奏者を生みました。

Miburiが演奏された,1999年のマルチメディアコンサート(富山大学)

また,明和電機のオタマトーン(2009年)も近年ヒットした新しい音楽インターフェースの一つです。まるで人が歌っているかのような音を出すことのできる楽器であえるオタマトーンには,プッシュ奏法やポルタメント奏法など様々な奏法もあり,多くのユーザーが存在します。

一方で, 既存の楽器を拡張するアプローチをとる研究もあります。元の楽器の演奏感・音楽観を損なわずに演奏体験を向上させるシステムとしてCyber 尺八(1997)が挙げられます。尺八本来が持つ楽器としての特質 を減少さ せないことと奏者に可能な限り違和感を感じさせないことを考えてデザインされています。

元の楽器との出音の差異がダイナミックな研究の一例としては,バルブの変位や楽器の位置などのジェスチャーデータをキャプチャし,リアルタイムなサウンドエフェクトやヴィジュアルアートのコントロールが可能なトランペッ トである MIGSI (Minimally Invasive Gesture Sensing Interface)(2018)が挙げられます。MIGSI の特徴的な点は,単なる実験的なプロトタイ ピングではなくリッチなユーザーインターフェースと楽曲も製作されているところです。

MIGSIのインターフェース(https://cycling74.com/articles/an-interview-with-sarah-belle-reidより引用)

他には,MIR(音楽情報検索)を応用した音楽体験の拡張として,音楽推薦システムの研究が挙げられます。協調フィルタリングによる推薦をはじめとし,楽曲からの特徴量抽出(Bag-of-feastures等)による類似楽曲推薦,ユーザーの状況を考慮した推薦(context-aware reccomendation),感性を表す言語表現から楽曲を検索する研究等があります。

また,インタラクティブパフォーマンスに音楽インターフェースを活用したものも多く存在します。その中でも古典的なものの一つとして,MIT Media Lab のパフォーマンス Brain Opera (1996) があります。様々な電子デバイスによる音楽装置を使って参加者が作曲し,それらの作った曲を組み合わせて 1 つの作 品にするもので,Harmonic Driving joystick,Melody Easel,Sensor Chair,Rhythm Tree など様々な新しい楽器デバイスが開発されました。

また,VRによる音楽体験は既にミュージックビデオ等のメディア作品に応用されています。

The WeekndのPV
SquarepusherのPV

自然言語表現によるエレクトリックギターの 音作り支援システム「Linguitone」の開発

ここで,音楽とヒューマンコンピュータインタラクション研究の実践のひとつとして,私の卒業研究の概要をご紹介します。

エレクトリックギターの演奏において,エフェクトペダルにより音を変化させる「音作り」を行う際にはギタリスト同士での音像の共有に独特な言語表現が用いられることがあります。実際にいくつかの代表的なエフェクターメーカーの商品サイトのプロダクト説明文や,エフェクター通販サイトのレビューには独特な表現が見受けられ,これらは通常の「音を評価することば」とは異なるものです。

OD-3 の周波数特性は幅広く、太く芯のある低域と美しい高域、粘りのあるサステインを実現。
- BOSS OD-3 https://www.boss.info/jp/products/od-3/

初心者は音のイメージの言語表現と実際の音像が結び付いておらず,これらの音色表現から具体的な音のイメージを行うことと実際にエフェクターを用いて音を作ることが難しいと考えられ,行った事前調査の結果からは最低でも約3年以上の演奏経験が無いと音のイメージが難しいことがわかりました。

本研究では,音色表現句の言語表現のパターンに着目し,自然言語の埋め込みベクトルからギターエフェクターのパラメータを予測するモデルを用いて音作りを支援するシステム Linguitone を開発しました。

Linguitoneはスマートフォンから音色の言語表現を入力すると,DTMソフトウェア上のギターのエフェクトのパラメータがその表現にあった音になるように自動的に設定されます。

ユーザーインターフェース解説
Linguitone 動作の流れ

エフェクトのパラメータを予測するモデルを構築するために,エレキギターの機材の販売サイトのレビュー文章を約5200件を分析し,品詞列のパターンと係り受け解析によるパターン抽出によって約200件の音色表現句を抽出しました。

音色表現句の自動抽出のための係り受け解析の例

それらの表現句のデータに対して音作りとデータ作成を行うためのインターフェースをMax/MSPで作成しました。

Maxによるデータセット作成インターフェース

その後,筆者とギター奏者のアノテータ2名によるデータ作成と拡張を行い,計311件の学習用データセットを作成しました。それらのデータに対して複数の分散表現手法と機械学習を用いて予測モデルを構築し,比較しました。

各モデルの全パラメータ加重平均二乗誤差

実際のギターの音に対する出力結果の例を以下に示します。エフェクト無しのA 440Hzと,「ざらついた歪み」でのA 440Hzの波形にはそれぞれ倍音成分に特徴的な差異が見られました。

エフェクト無しの波形
「ざらついた歪みの波形」

さらにギター奏者6名を被験者とし,本システムのユーザビリティ・音作り支援性・創造支援性の評価を行いました。

ユーザビリティ評価指標の回答結果
音作り支援性指標の回答結果
CHI’09のCreativity Support Indexを転用した評価基準の回答結果

音作りのアプローチや再現の精度面での課題はまだいくつか残っており,新型コロナウイルスの影響で十分な数の被験者による検証はできませんでしたが,結果として良好な評価を得ることができました。

本研究は発展途上ですので,コメントやご意見等くださる方は@atsuyakobaまでメッセージいただけると幸いです。

おわりに

以上,音楽とヒューマンコンピュータインタラクション研究の様々な側面からの事例紹介と自身の研究の実践について紹介いたしました。

今後,より発展しするであろうこの領域ですが,まだまだ私が紹介した5つの側面以外の新たなアプローチや,まだあまり取り組まれていない複合領域も考えられます。SFC徳井研では,あたらしい技術による音楽とのインタラクションの提案と実現を目指し,研究としての実装と検証に加えて作品制作も通した実践を行っていきます。

参考文献

[1] 音楽とヒューマン・コンピュータ・インタラクション 竹川佳成(公立はこだて未来大学) — 526 情報処理 Vol.57 №6 June 2016

[2] Dannenberg, Roger & Sanchez, Marta & Joseph, Annabelle & Capell, Peter & Joseph, Robert & Saul, Ronald. (1990). A computer‐based multi‐media tutor for beginning piano students. Journal of New Music Research. 19. 155–173. 10.1080/09298219008570563.
[3]佳成竹川, 努寺田, 昌彦塚本. 運指認識技術を活用したピアノ演奏学習支援システムの構築. 情報処理学会論文誌, Vol. 52, №2, pp. 917–927, feb 2011.
[4] 希子安井, and 雅展三浦. 2015. “ドラム基礎演奏の練習支援システム(システム論文特集号).” 日本音響学会誌 71 (11): 601–4.
[5] S Ariga, M Goto, and K Yatani. Strummer: An interactive guitar chord practice system. In 2017 IEEE International Conference on Multimedia and Expo (ICME), pp. 1057–1062, July 2017.
[6] 吉井 和佳, 2. 音楽と統計的記号処理, 映像情報メディア学会誌, 2017, 71 巻, 7 号, p. 457–461, 公開日 2019/07/01, Online ISSN 1881–6908, Print ISSN 1342–6907, https://doi.org/10.3169/itej.71.457, https://www.jstage.jst.go.jp/article/itej/71/7/71_457/_article/-char/ja

--

--

Atsuya Kobayashi
Computational Creativity Lab at Keio SFC

Keywords: Interactive System on Musical Experience, Human-Artificial Intelligence Interaction, Brain-Machine Interface, Web-based System, Artwork Generation