[x-Music lab 22春] 人工知能によるビジュアルノーテーションの生成とそれを用いた音楽・映像表現の提示

Santa

Published in

x-Music Lab

Jul 30, 2022

環境情報学部4年成瀬陽太(Santa Naruse)

Index

About Project
Method
System
Conclusion

About Project

研究概要

近年，人工知能技術をミュージックビデオやオーディオ・ビジュアルパフォーマンスに用いた，実験的な音楽・映像表現が盛んになっている．

本研究では，人工知能技術の中でも画像生成に着目し，人工知能が生成するビジュアルノーテーション(図形楽譜)とそれを演奏する人間のインタラクションを設計し，映像と音楽が同時に生み出され有機的に結びついた新しい表現を提示する．またその表現から人工知能と人間の共創について模索する．

そして，Audio/Visual表現の現在のAudio > Visualという関係性を逆転させた人工知能によって生成されたVisualが優位な表現を構築する．

人工知能と映像表現

人工知能技術を用いた実験的な映像表現が盛んになった背景として，人工知能を用いた画像生成技術の発展が挙げられる．

例えばStyleGAN2は高精度かつ高画質な画像を，DeepFaceLabを使うと人の顔を全く別人の顔にするといったようにDeepFakeと言われる映像を，DALL-E2では文章を入力するとそれに対応しているだけではなく人間を驚かせるような画像も生成できる．また，様々なバリエーションの画像を生成することができるかつ，人間が思いつかないような画像が生成されることも珍しくないため音楽・映像表現に起用されることが増えた．

しかし，先述した音楽・映像表現では人間が予め作った音楽に合わせて人工知能が生成した映像を切り貼りしたものが多く，人間と人工知能の関わり合いが少ないと感じた．そこで私は，ビジュアルノーテーション(画像)を人工知能によって生成し，その楽譜から演奏を行い，生み出される音のパラメータを生成器にフィードバックすることで新しいビジュアルノーテーションを生成する．そしてそこからまた演奏を行う，といった人工知能と人間が互いに影響し合う新たな音楽・映像表現を提示する．

また，生成する画像をビジュアルノーテーションとする理由は，参考としている図形楽譜はもともと自由な図形やイラストを使うことで既存の音楽の概念を打ち壊し，新しい音楽を創造するために作られたという歴史があり，その役割と今回私が提案する音楽・映像表現との相性が良いと感じたことが挙げられる．また，図形楽譜は全く同じ表現にはならないかつ即興性が重視されるため，人間と人工知能の即興表現を行うことで一度だけしか見れないパフォーマンスを生み出すことができるのではないか，という点も挙げられる．

ビジュアルノーテーションとは

ビジュアルノーテーションとは図形楽譜などの図表や図柄，テキスト等によって記された記譜．

また，共感覚的芸術から始まるビジュアルミュージックの要素も含まれる．

Method

人間と人工知能のインタラクションの設計

既存の図形楽譜を使った作品，パフォーマンスなどを詳しく調査し，どのように楽譜から人間が演奏を行っていたのかを言語化する．そしてその結果からどのようなビジュアルノーテーションを生成すると良いのか，それ音のどのようなパラメータから変化させると良いのか，人間の演奏方法を検討していく．

画像生成は高精度かつ高画質な生成ができ，多くの潜在変数から生成画像をコントロールすることができるStyleGAN2を使用する．右図のように潜在変数(Latent Vector)のz, wを入力としてStyleGAN Blockに反映させることでzの場合は大まかな変化，wの場合は細かい部分の変化(モーフィング)をさせることができる．これにより音高，音圧，BPM，音楽の盛り上がり具合などの音楽情報を潜在変数z, wとして入力して人間の演奏を画像生成にフィードバックする．

ビジュアルノーテーションの生成から，人間の演奏から生まれる音の情報を解析してパラメータを生成器にどのようにフィードバックするかを検討して実行することでリアルタイムにビジュアルノーテーションを変化(モーフィング)させる，そしてその楽譜から人間が演奏を行う…という人間と人工知能のインタラクションを設計する．

System

パフォーマンスシステム

8/8に行うライブパフォーマンスに関するシステム図．

パフォーマンスの形態は以下のとおりである．

StyleGAN2-adaによるビジュアルノーテーション(詳しくは下記)の生成を行う．
それをプレイヤーが見て，そのビジュアルノーテーションに合うと思った演奏を行う．
演奏者の操作する音を解析し，そのパラメータ(周波数，RMS，BPMなど)をStyleGAN2-adaにフィードバックする．

上記のフィードバックシステムを繰り返すことで主体があやふやになりつつもAIと人間が相互作用するAudio/Visualパフォーマンスが表現される．

展示システム(ICC)

展示では多くの人に体験してもらうことができるため，鑑賞者がどのように映像を制御したのかを詳しく記録していく．

具体的には，ビジュアルノーテーションの変化と鑑賞者の音の変化を同時に記録しておくことで，AIと人間の相互作用を分析し，それを評価することができる．

ビジュアルノーテーション

音の周波数帯のビジュアライズとブーバ・キキ効果を用いた線を使ったビジュアルノーテーションを作成した．

ブーバ・キキ効果とは心理学で，言語音と図形の視覚的印象との連想について一般的に見られる関係をいう．下記の画像どちらがブーバ/キキですか，と質問をすればブーバは右，キキは左と答える場合が多い．これを利用し，真ん中の線を連想させるような音，周波数帯の可視化をされているためそれに近い音になるよう操作を行う．

※下画像はデータセットであるため，実際に生成される画像とはまた別(これに近くなるはず)