[CCLab 21秋] 音楽生成モデルの動向と楽曲体験デザインへの応用可能性について

Published in

Computational Creativity Lab at Keio SFC

Feb 7, 2022

シンボリック音楽生成モデルの動向

深層学習モデルを用いたシンボリック音楽生成は近年様々な手法が検討されておりGAN (MidiNet等) やRNN, VAEを組み合わせたもの (PerformanceRNN, MusicVAE等) が提案されている。その中でも、2018年にGoogle Magentaが発表したMusic Transformerではそれまでのモデルと比較しより長期的な依存関係を表現することができるようになり、その後はTransformerをベースとした様々な音楽関連のタスクを解くモデルが提案されている。

まず機械学習を用いてシンボリックな音楽情報を扱うには、大きく分けて2つの手法がある。一つは深層学習モデルで扱うためのマトリクス表現に変換する方法で、MIDIのピアノロールを画像として扱うのに近い。扱える音階、音量を16分音符等に設定された各グリッド上に配置したものを予測する。

一方はMIDIの各イベントを単一のシーケンスとして扱うためにnote onやnote off、time shift (miliseconds) 等のイベントすべてをone-hot encodingし，各イベントを系列として扱う手法である。マトリックス表現にする時と比べデータが疎になりにくく（例えば4拍の休符があった場合16分音符のステップでは16このデータがゼロとなるがRestトークンがあればより少ないデータ数で表現できる），言語モデルのように系列としてデータを扱うことで学習を可能にしている。

このMIDIデータをトークナイズする手法も様々提案されている。例えばMusic TransformerやPerformanceRNNで用いられている表現のMIDI like representationでは，Pitch情報を持ったNote-OnとNote-Off，Time-Shift (ms) とVelocity (音量) がそれぞれトークンとして順番に羅列している。

上記の楽譜をMIDI Like Representationでエンコードしたトークン表現はこのようになる (MidiTok リポジトリより引用)

その後 Pop Music Transformerで提案されたREMIでは，各トークンを小節ごとにまとめるために Barトークンを採用し，Time-deltaを廃止し各小節の頭から何グリッド目かというPositionトークンと，音符の持続時間を表現するDurationトークンで時間情報を扱っている。また、PopMAG: Pop Music Accompaniment Generationで用いられているMuMIDIという手法では、マルチトラックに対応するために楽器の種類を表すTrackトークンやChordトークンが採用されており，ドラムのピッチとその他の楽器のピッチ情報は別々のものとして扱われている。またモデルの内部では時系列を扱うBarやPositionと，音符をあつかうPitch，VelocityとDurationは別々の空間へと埋め込まれている。これらのエンコーディング手法をまとめたオープンソースのトークナイザライブラリMidiTokが実装され、昨年のISMIR2021で発表されている (MIDITOK: A PYTHON PACKAGE FOR MIDI FILE TOKENIZATION)。

さらに，Mutitrack Music Machineでは、MIDIで扱える全ての楽器を指定した生成が可能である。

内部的にはGPT-2が用いられており，生成時にはトラック開始と楽器を指定するトークンまでをプライミングとして入力することで、その続きを予測する形で任意の楽器でのメロディ/伴奏/リズム生成を行うことができる。さらに Densityトークンによって，音価の密度＝どれくらいの音数にするかまでコントロールができるようになっている。

また、先日のACM Multi Media 2021のbest paperであったVideo Background Music Generation with Controllable Music Transformerでは映像データからBGMを生成しているが、その際にジャンルを指定して生成することが可能になっている。

Demo 1 of Controllable Music Transformer_哔哩哔哩_bilibili

Demo of ACMMM 2021 paper「Video Background Music Generation with Controllable Music Transformer」 The background music is…

www.bilibili.com

このように、Transformerベースの生成を行うシンボリック音楽生成のモデルは単なる表現力のみならずコントロール可能な域まで達しており、様々な応用方法が考えられる。

応用方法として

まず第一にそれらの音楽生成モデルの応用先として考えられるのは作曲支援であろう。実際にAIによる作曲を謳ったソフトウェアやツールは様々なところがリリースしており、Google MagentaもMagenta StudioというAbleton Live向けツールを配布提供している。ヒトの創造性を拡張するという観点から，作曲支援ツールのインターフェースに関する研究も様々なアプローチでなされており，いかに解りやすいコントロールをさせるか，いかにユーザーであるミュージシャンに使ってもらうかという挑戦がなされている。

一方で，より豊かな音楽聴取のためのデータ活用というと，一般的には楽曲のレコメンデーション手法などに着眼点が置かれたものが多い印象があり、近年の高い表現力を持ったモデルを用いた自律的かつ実時間的な作曲によって新たな音楽体験を提供しようという試みは少ないのではないか。

例えば，上記の自律的な音楽生成モデルは今までにあった楽曲の前半部分を入力することで、既存のものとは異なる後半部分を生成することができる。ユーザーが知っている曲に似てるけど知らない曲を提供するというのは、ミュージシャンにしかなせない芸であるが、楽曲の特徴をうまく掴んだモデルなら可能であり、新しい音楽作品の形として、前半部分は固定だが後半部分は”人工知能によるインプロビゼーション”であり聴くたびに様子が異なる楽曲があっても面白い。また、既存の楽曲に対して似た曲をマッシュアップするのではなく、その場で似た曲を生成してマッシュアップしAI-Remixを作成するなどの楽しみ方もある。

徳井研究室x-music-generationチームでは、この新たな音楽聴取体験を生むための生成モデルの応用としてMixed Reality環境での音樂生成インスタレーションを制作した。

Mixed Reality環境でのメロディ体験インスタレーション

近年のAR/VRデバイスの普及にともなって，音楽体験のフィールドも拡張されている。拡張現実区間での音楽体験のデザインは Musical XR (Extended Reality)とされ，例えばMRデバイスで任意の位置に音源を配置して楽曲をサラウンドで楽しむシステムなどが提案されている。

今回私達は，ユーザーが身の回りにある実際の物体（壁や机など）と，身の回りに浮かぶバーチャルな物体をぶつけた時に生じる音から機械学習モデルでメロディをリアルタイムで作曲し，それを楽しむという体験をデザインした。

ユーザーはMicrosoftのHoloLensを身に着け，自身の手によって周りに浮かんでいる球や立方体をたたいたりつまんで引っ張ったりすることができるようになっている。さわられた物体は飛んでいったり落ちたりして弾んだり跳ね返ったりするが，その時の音に続くようなメロディが生成されている。

Demo Video

おわりに

音楽生成モデルの発展にともない，作曲段階にも音楽聴取段階にもどちらにも応用し，新たな音楽体験，新たなエンターテインメントの形をつくりだすことができるのではないかと考えている。いつか人工知能とセッションをしたり，人工知能から音楽制作のアプローチを教わったりするようなインタラクションも設計されうるし，聴くたびに少しずつアレンジが替わるようなライブ感をもった今までにない音楽の聴き方もデザインされうるであろう。私個人としては引き続き生成手法のサーベイと実験，作品の製作を通して，そのような世界に近づけていくための貢献ができれば幸いである。