[x-Music Lab 23春] StyleGANを用いた音色の生成とシンセサイザーの作成と音のキャプショニングモデルについて

髙梨大
x-Music Lab
Published in
Aug 6, 2023

慶應義塾大学 環境情報学部4年 x-Music研究会所属 髙梨大

StyleGANを用いた音色の生成とシンセサイザーの作成

研究概要

深層学習を用いた画像生成モデルであるStyleGAN[1]を用いて、シンセサイザーを含む様々な楽器を学習させ音色を生成する。生成した音色をリアルタイムでmidiキーボードにマッピングすることで新たな形の楽器としての演奏を可能とする。従来のシンセサイザーのRelease, Attack, Resonance, …etcのようなパラメータに加え、生成する際のパラメータを追加することでAI生成独自の生成音楽感や音色のモーフィング感を創出する。

背景

昨今DAWなどのプラグインソフトで音色作成をする際にAIを用いるものが増えている。EQのパラメータを自由に調節してくれたり、「こういった音色」のようなものを入力するとそれにあった音色を生成してくれるなど音作りの工程を最短化するようなものが多い。その一方で、AI生成独自の音を出したり、AI生成のギミックを利用することで行える表現をすることのできる楽器やプラグインソフトは非常に少ない。今回提案する手法を通して、より探索的に音色作成を行うことのできるシンセサイザーの作成を目指す。

提案手法

音色をスペクトルグラム画像に変換し、深層学習の画像生成モデルの一種であるStyleGAN[1]を用いて学習、生成を行う。StyleGAN[1]とはスタイル変換の技術を生成部分に応用した画像生成モデルであり、スタイルを制御しながら生成を行うことができる。StyleGAN[1]では画像がモーフィングするように生成することができるので、それを音でも行い音色のモーフィングを実現する。音からスペクトログラムの変換ではRiffusion[2]のスペクトログラム変換技術を使用し、StyleGANはStyleGAN2-ADAを使用した。

実装

提案手法で学習したモデルを使用し、リアルタイムで生成を行う。生成した音色はOSCでMax8に送られ、midiキーボードの1音1音にマッピングされる。制御できるパラメータはseed, truncation, 潜在ベクトルの3つで、それぞれをMax8を用いてmidiキーボードのノブにマッピングしている。

今後の展望

  • 現在はシンセサイザーの音が多く含まれるデータセットを用いて学習を行ったが、それ以外の音色や環境音を追加し学習を行う。
  • polypnonicで音を出せるようにMax8の部分を修正する。
  • Stable Diffusionで生成したキックの音楽やvocalの音楽と一緒に演奏する。

--

--