Computational Creativity Lab at Keio SFC - Medium

How AI connects art, music, color and emotion

Kieu Quoc Thai — Tue, 14 Feb 2023 20:27:14 GMT

“I believe if there’s any kind of God it wouldn’t be in any of us, not you or me but just this little space in between. If there’s any kind of magic in this world it must be in the attempt of understanding someone sharing something.”

(R. Linklater, Before Sunrise)

This is one of my favorite quotes from any movie. To interpret this without the religious context, I see it as a way to establish the meaning of art. If art is ever to exist, it would not lie within us but in the spaces between what exists. I am fascinated not only by the artistic works but also by the beautiful connection it creates with people, things, and concepts. In light of the development of AI and my interest in music and media art, I want to explore the current technology that offers connections between AI and music, color, and emotion. Further research on this topic could provide further insights into the relationship between the different mediums of arts through the lens of AI, and potentially be a part of the future AI visual incorporated into music.

With the current technology available, I looked into a machine-learning model developed by a researcher named Theodoros Giannakopoulos. This ML model maps audio to emotional classes. It uses Spotify (Stotify’s API) for mood detection and plots the emotion on a valence and energy chart. On the chart, valence is on the x-axis and energy is on the y-axis. Valence refers to how positive or negative the emotion is and energy refers to the energy level of the song. The values are on a continuous -1 to 1 range. This machine-learning model has been trained with over 5000 songs. For each time it analyzes on time, the model takes a 5-second segment of a song. The audio signals are processed in 8K, 16K, and 32K. The model uses PyAudioAnalysis to extract 130 statistical audio features per segment into 130 dimension feature vectors.

However, as stated by the research itself, this emotion classification is only 70% accurate while the valence is only around 55% accurate. Additionally, there isn’t deeper research on the psychological factor of the color representation of the emotion. Therefore, I would like to test the model’s accuracy in emotion detection and color representation.

There has been previous research on the relationship between the association with different musical genres. Research K. L. Whiteford has interviewed an extensive amount of people and formed a color palette of different colors that people associated with the respective genre. She has also created a valence arousal chart for different genres of music.

However, I want to take this concept further by doing this experiment on people while also having a comparison to the results that AI produces.

For the experiment, I first created a document questionnaire to send people online (sample questionnaire: https://bit.ly/3JRJJLc). In this questionnaire, there are 30-second samples of 4 different songs to be listened to from 4 different genres. The listeners much first plot the emotion of the songs on the valence-chart chart. The points in which the listeners plotted would be compared in vector difference with the AI’s average coordinate given the same sample. The vector difference will be calculated using the equation for vector difference.

Then, the listener will be asked to give the emotion pinned a color. This color will be compared to the color produced by the AI at its average point.

The color difference will be calculated by comparison in RGB difference using the delta E 94 equation.

In this questionnaire, there are introductions and instructions on the questionnaire to make sure the participants are well aware of why I’m conducting my research, how the valence-arousal chart works, and how to plot points and use colors. There are also advice and instructions on how to customize the colors more uniquely to achieve less bias on the color. Additionally, there the whole questionnaire is in black and white and the song links are given with no visuals. This is done to avoid color and visual bias when the participants are listening to the music, generating a more emotional response with the connection to color.

The four songs that are used for my experiments are of different 4 different genres with a relative difference in valence level and arousal level. The first song is a lofi/jazz song named Neopolitin by Guustavv. The song has a slow tempo with a looped beat. The second song is an alternative rock/metal song by the 1975. The third song is a future funk song by the artist Night Tempo. The fourth song is an indie folk song named by Pheobe Bridgers.

Throughout the four songs, the average vector distance was 0.69. Given the maximum vector distance of 2.83, the accuracy of the AI’s emotion detection is around 77%. This is quite impressive for the AI.

However, when we look closely at the results of the AI for each song, we can detect its weakness. The AI has difficulty detecting the ‘relaxed’ emotion– high valence but low arousal. In the first song where most people put their answer in the bottom right quadrant, the AI puts it in the bottom left. This shows that AI easily confuses low arousal as automatically being low low valence. Additionally, AI also has a lower tendency than humans in choosing high-energy emotions.

The human results of emotion detection were also ambiguous depending on the song. The results from the alternative punk/metal song, where it would sound were ambiguous as 4 put them in the high energy-low valence box while 3 other candidates put it in the high energy-high valence.

Taking a closer look at each color the participants have chosen, we can see interesting patterns and disparities.

The 2nd song, which conventionally would sound rather aggressive, has a more unanimous choice of deeper richer red-ish colors. This shows that high-energy aggression is more likely to be associated with darker redder colors. Then on the 3rd song, many participants picked a bright pink color. This could be associated with the genre of future funk which incorporates much of pink visual themes. Then on the 4th song, there’s an uncanny resemblance between the color palette of the album cover and the colors the participants have picked. Due to this song being quite famous, the audience could’ve already been familiarised with the artwork of the album and subconsciously picked the colors that were related. Therefore, if an AI model was to be developed in translating emotion detection to visuals, it is important to incorporate the online data of the color of the associated artwork and visuregardingd to the genre.

The emotion color result of using the Delta E (94) equation shows that the color difference that the AI generated compared to the human picked shows the slightest difference in the 4th song and the most difference in the 2nd song.

To summarize this experiment, was a good introduction to the investigation of the relationship between emotion, color, music, and AI. However, for further improvement, I would need to ask more candidates and have a wider range of music. Next time, I should survey people further on who they are based on where they are from, the genres they listen to, and how they feel that day. This then could help me detect further patterns from the data to the emotion and color response. Then I would like to input the data on songs, people’s perception of the songs, and further personal information to create a visual performance.

How AI connects art, music, color and emotion was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CC Lab 22 Fall] Odd-time signature project(on-going)

Shoma Sawa — Wed, 08 Feb 2023 05:46:39 GMT

0. Motivation

Music generations in deep learning are mostly trained and generated on 4/4 time signature, with lack of emphasis on other time signatures. Furthermore, the availability for non 4/4 time signatures data-set hinders us from exploring beyond 4/4 time signatures. Due to the lack of exploration of odd time signatures in this research area, I decided to focus on generating odd-time signature MIDI generation.

Introduction

Generations of irregular and mixed meter have been explored previously in a paper[1], but with limited control of the time signature it generates. The paper utilizes it’s hybrid temporal scope representation and Bidirectional Long Short-Term Memory(LSTM) network to generate music with mixed and irregular meter. However, due to the representation, it has no control on which time signature to generate on. Time signature are often overlooked in the music processing, where a survey in time signature detection[2] has discussed the need for such analysis. Music generations are mostly seen trained in 4/4 time signature, but time signatures other than 4/4 exists as well. By exploring music generations beyond 4/4, we can open up for the possibility of having the creative freedom of choosing the time signatures of the music to generate on. We hypothesize by using Conditional Variational Autoencoder(CVAE) with RNN layer will allow for controllable time signature music generation.

2. Datasets and Methodologies

An dataset from Reddit’s Drum Percussion MIDI was used, in which each midi with the supported time signature was sliced into 2 bars using PrettyMIDI[3] and Magenta’s note-seq[4]. The sliced midi was then converted to a matrix form, consisting of the drum’s onset, velocity and the conditional vector(time signature). All of the midi was quantized into 12 quarter note to support triplets, and the matrix size was set to shape(168, 9), consisting of 168 notes and 9 possible drum instruments. The largest time signature used for our experiment was 7/4, thus the matrix size was set to an axis of 168(1/4 consists of 12 notes, thus 2 bars of 7/4 will mean (12 × 7) × 2 = 168. An RNN was used for the CVAE and the datasets was filled with padding when necessary(when a certain time signature’s music generation is ended, the rest is filled with the padding.) Filling the datasets with padding was crucial as some time signatures matrix can leave out some empty space in the matrix. For example, 2 bars of 4/4 will consists of 96 notes, (12 × 4) × 2 = 96, in which the rest of the matrix will be empty. This emptiness may result in poor generations among certain time signatures, as 4/4 meter is the most dominant meter out of all the meter available in the dataset.

Dataset distribution for the time signatures

3. Results

The output from the trained CVAE was poorly generated(can be seen in the appendix). Out of all the conditioned output, 4/4 time signature had the best result. This is trivial, as the data distribution for the dataset is heavily skewed to 4/4 time. The problem may have been due to the data representation in an absolute value(matrix), instead of a relative value(symbolic). The matrix approach may have been inappropriate due to the aforementioned sparseness of the matrix. Therefore, a symbolic approach may alleviate the problem, and improve the training and generation of the model.

The symbolic approach would be like the following figure. It will convert the midi into a token.

Example 1.

Tokenization of example 1.

['BAR',
 'BEAT_0',
 'POS_0',
 'KICK',
 'BEAT_1',
 'POS_6',
 'KICK',
 'BEAT_2',
 'POS_0',
 'KICK',
 'BEAT_3',
 'POS_6',
 'KICK',
 'BEAT_4',
 'POS_0',
 'KICK',
 'BEAT_5',
 'POS_6',
 'KICK',
 'BAR',
 'BEAT_0',
 'POS_0',
 'KICK',
 'BEAT_2',
 'POS_0',
 'KICK',
 'BEAT_4',
 'POS_0',
 'KICK',
 'END']

For future research, I would research using this symbolic approach instead. Although, my research on odd-time signature are still on-going, I will continue to research music generation(especially symbolic). As my goal is to create a AI system that can both generate and assist the users in composing a song in a DAW.

3.1 Extra: ChatGPT

ChatGPT from OpenAI is now a big thing, which was a surprise for me because AI models(deep learning model) usually do not get picked up by the media. The feat achieved by ChatGPT may explain the hype and praise it gets. However, the ethical concerns about outsourcing Kenyan workers (human labellers) is important to be highlighted. Yes, it’s great to achieve better accuracy, but at what cost? Also, as like any other language models, it includes bias as well. It is important for the company to develop a model that helps a person, not dehumanize them. Furthermore, I believe majority of the consumer do not understand what exactly the model is doing and trained on. It is important to note the data is only limited to 2021 data, and can generate incorrect information’s. There is indeed a lack of awareness and knowledge about ChatGPT, therefore the company should try to be more transparent about their services, educate their consumers.

4. Conclusion

Through this seminar, I have been inspired by a various interesting projects and presentations from my lab mates. Despite having a different research area, everyone seems to be passionate about enhancing our lives creatively. I enjoyed my time at CCLAB, and would like to thank my fellow lab mates and professor.

5. Appendix

Generated output for 4/4 drum midi

Generated output for 3/4 drum midi

Generated output for 5/4 drum midi

Generated output for 6/8 drum midi

Generated output for 7/4 drum midi

6. Reference

[1] Z. J. Kan and A. Sourin, “Generation of Irregular Music Patterns With Deep Learning,” 2020 International Conference on Cyberworlds (CW), 2020, pp. 188–195, doi: 10.1109/CW49994.2020.00038.

[2]Abimbola J, Kostrzewa D, Kasprowski P. Time Signature Detection: A Survey. Sensors (Basel). 2021 Sep 29;21(19):6494. doi: 10.3390/s21196494. PMID: 34640814; PMCID: PMC8512143.

[3] Colin Raffel and Daniel P. W. Ellis. Intuitive Analysis, Creation and Manipulation of MIDI Data with pretty$_$midi. In 15th International Conference on Music Information Retrieval Late Breaking and Demo Papers, 2014.

[4] https://github.com/magenta/note-seq

[4] Alexander, J.A.\ \& Mozer, M.C.\ (1995) Template-based algorithms for
connectionist rule extraction. In G.\ Tesauro, D.S.\ Touretzky and T.K.\ Leen
(eds.), {\it Advances in Neural Information Processing Systems 7},
pp.\ 609–616. Cambridge, MA: MIT Press.

[5] Bower, J.M.\ \& Beeman, D.\ (1995) {\it The Book of GENESIS: Exploring
Realistic Neural Models with the GEneral NEural SImulation System.} New York:
TELOS/Springer — Verlag.

[6] Hasselmo, M.E., Schnell, E.\ \& Barkai, E.\ (1995) Dynamics of learning and
recall at excitatory recurrent synapses and cholinergic modulation in rat
hippocampal region CA3. {\it Journal of Neuroscience} {\bf 15}(7):5249–5262.
}

[CC Lab 22 Fall] Odd-time signature project(on-going) was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CC LAB 22秋] 取り組んだこと

Sasaki Yuria — Wed, 08 Feb 2023 05:46:21 GMT

この記事はComputational Creativity Lab(慶應義塾大学徳井直生研究室)の2021年度秋学期最終レポートを兼ねています。

環境情報学部 1年佐々木ユリアと申します。
秋学期に取り組んだことについてまとめていきます。
今期は、主に姿勢推定を用いてオープンソースの使い方やモデルの理解など、基本的な実装力を身につけることに注力しました。
最後にアウトプットとして姿勢推定を用いた作品を制作しました。

目次
1 . 姿勢推定モデルの検証
2 . 作品
3 . 反省と今後

姿勢推定のモデル検証

・姿勢推定とは
人物の姿勢を推定するモデルです。
3次元情報を2次元画像から推定し、画像・動画に対して扱うことが可能です。deep learningによって骨格の特徴点を学習し、骨格推定を可能にしています。
リアルタイムに推定することが可能で、スポーツの動作解析にも用いられています。
最近では、医療やセキュリティといった様々な分野での活用が期待されています。

media artの領域では、第20回文化庁メディア芸術祭アート部門で優秀賞に選ばれた「Alter」というロボットを用いた作品は姿勢推定が使われています。周囲にいる人間の骨格を判断することによって、ロボットの制御に影響を与えることができます。

優秀賞 - Alter | 受賞作品 | アート部門 | 第20回 2017年 | 文化庁メディア芸術祭歴代受賞作品

・エジプト絵画に姿勢推定を行う

エジプト絵画の特徴は顔・胴体・足は横向き、目・上半身は正面を向いて描かれます。
「人間」から見れば人の骨格を読み取ることができますが、人間の曖昧な骨格を持つエジプト絵画を「AI」はどのように認識するのか気になり検証しました。

上記の写真は、openposeで姿勢推定を行いました。openposeでは一部の骨格が推定されることはありましたが、完璧に推定できたエジプト絵画はありませんでした
この結果を受けて、他の姿勢推定モデルでは検証されるのか、写真ごとにモデル比較を行いました。
openpose、mediapipe、yolov7の3種類の姿勢推定モデルを用いて検証しました。

・エジプト絵画

左の画像からopenpose、mediapipe、yolov7となっています。
openposeはほとんど検出されず、mediapipeに関しては全く検出されませんでした。yolov7に関しては、微妙なミスはあるものの、概ね検出されました。

・横向き（人間）

エジプト写真の結果から、姿勢推定は横向きのモデルに対して学習がなされていないのか確認するために、人間の横向き写真をモデルに検証しました。結果は、mediapipeのみ全く反応しないことが分かりました。

・戦場でのカモフラージュ写真

（yolov7以外全く反応しなかったため、写真はyolov7のみ掲載）
カモフラージュ写真に対しても
このようにオープンソースとして誰でも使用できることで、開発者の意図しない使われ方をされることも視野に入れておかなければならないと思います。

・人体模型

（yolov7以外全く反応しなかったため、写真はyolov7のみ掲載）
yolov7では認識されたが、骨格に対して骨格推定がかからないのは、AIが学習データをもとにしか判断できないことが表れています。

以上の画像によるモデル比較から、yolov7の認識能力の高さが読み取れます。

作品

人類の進化を表すアニメーションを制作しました。
私たち人間はホモサピエンスに位置付けられます。
人間は、絶滅と進化を繰り返した結果、出来上がった形です。
骨格は道具やまわりの環境に適応していく中で少しずつ変化していきます。この変化に適応できなかった生物は、絶滅していくでしょう。今、生物として生き残っているという事実は、環境の変化にうまく適応し、自らも変化していったことの表れだと言えます。

stable diffusionで生成した絵

進化を表す図として少しづつ直立していく姿を描かれることが多いですが、実は人類起源の骨格に近づいているのではないでしょうか。
ライフスタイルの変化により、人々は長時間椅子に座って過ごしています。ここ20年の間で人類はスマホやPCといった新しい強力な道具を手に入れました。道具によって我々は進化しましたが、骨格においては原点回帰のような変遷を見ることができます。
「歴史は循環する」と言われるように進化の軌跡を映像にしました。

https://medium.com/media/2af4ae23c0e6cb9b5c43a22cd22cdc89/href

yolov7を用いて骨格推定し、touchdesignerで作成しています。

反省と今後

姿勢推定モデルの評価をしましたが、評価しただけで終わってしまい、評価後の展開が作れませんでした。
自分の活動を発表するからには、聞き手に対してもう少しgiveできる考察が必要でした。
議論に対する考察の浅さも目立ったので、物事を構造化と抽象化して取り出すトレーニングを積み、深掘る癖をつけたいと思います。

また、実装力やvisual領域への圧倒的な知識不足を感じました。
良いインプットから良いアウトプットが生まれるというように、サーベイを欠かさず行うとともに自ら展示に足を運び、知識を深めていきたいです。
実装力に関しては、ある程度時間をかけないと上達しないと思うので、手を動かし続けていきます。

全体的に今期は、自分の興味の赴くままに進み、俯瞰できていなかったため、自分の進むべき領域を整理しなおす時間も取ればよかったなと思います。
今期の活動で得たことを活かしながら、今後も技術力を高め、表現の幅を広げていきたいと思います。
昨今、AIの進化に衝撃を受ける毎日ですが、古典的な仕組みから学ぶとともに時代の一線をかける仕組みの両方を追っていきたいです。
作品としては、一方的なvisualだけでなく、リアルタイム性を持つインタラクティブなvisualの制作にも挑戦します。

CCLABの皆さん今期の活動を支えていただきありがとうございました。

[CC LAB 22秋] 取り組んだこと was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CCLab 21秋]If you want to conquer fear, don’t sit and think about it. Stand up and mix the music.

Ryo Simon(Ryo Nishikado) — Tue, 07 Feb 2023 09:03:08 GMT

もし不安を克服したいのなら、座って思いに耽るな。立ち上がりを音楽をミックスしなさい。

慶應義塾大学大学院政策・メディア研究科修士課程1年のRyo Simon[Nishikado]です。
今回は私が所属しているComputational Creativity Lab(以下CCLab)の2021年秋学期での活動についてまとめたものを公開したいと思います。
注.本投稿はCCLabの最終課題を兼ねた内容になっています。また、一部内容は国際会議に提出中のため、概要のみとなります。あらかじめご了承ください。

・CCLab Exhibition 2021
・今学期行ったこと
・今後の予定

CCLab Exhibition 2021

2021/9/23~27の表参道 TIERS GALLERYにて徳井研究室の展覧会「Alternative Dimension」を開催しました。

徳井研が発足して約三年、恵比寿Liquidroom上のKataにてx-Music Lab(藤井研究会)との合同の展覧会を開催してからの二年ぶりの展示会となり、なかなかアウトプットの機会が少なくなった今、展示に出す作品を作るモチベーションはとても高かったです。そして、本展覧会ではAdaptive Yantra~Yaoyorozu~とVariable Flavor Remixの2作品を展示させていただきました。

Adaptive Yantra~Yaoyorozu~

実際の設営されたAdaptive Yantra

本作品は前学期の活動まとめの番外編にて取り上げさせていただいたものを展示用にアップデートしたものです。会場の制約上心拍数と生成モデルの紐付けができなかったため、時間経過による自動生成のモードへと切り替えたバージョンでの展示となりました。真ん中に大きく写るヤントラ以外はそれまでに生成したヤントラを、中心にはリアルタイムに生成され手モーフィングを行うヤントラを配置しました。

プロジェクターで投影している画面

実際に大きなディスプレイに写しているわけではなく、窓の後ろにトレーシングペーパーを貼り付けてプロジェクターに映し出すことできれいに写し出すことができました。

会場close後、外からこのように見えていました

Variable Flavor Remix

本作品はQRを読み込んで個人のSpotifyのお気に入りリストを提供してもらい、そのうち一つの曲を選び音源分離を行いMIDIコントローラーを用いて簡単にマッシュアップ体験を行える作品となっております。

詳しくはKai Obara君とRyo Hasegawa君の記事で記載してありますので、是非そちらをご覧になってください。

https://medium.com/media/aa3b7fc494a88aeee012301102a620c7/href

本作品においてはシステムからの音量や分離後のパートのトラックのON/OFF情報、後ろのバックのオーディオリアクティブのビジュアライズを行いました。

今学期行ったこと

前学期のまとめである[CCLab 21春]DJが司る感覚とは?で述べさせていただいた通り、大学院では”機械学習と触覚フィードバッグを用いたDJツールの開発”という題で研究を続けております。

前学期はDJとHCIの文脈におけるつながりや触覚フィードバックによる演奏熟達支援に関する研究のサーベイを行い、実際にクラブでDJを行う人たちへのアンケートを行いました。また、アンケートで集まった回答や意見をベースにNintendo SwitchのコントローラーであるJoyConを用いたプロトタイピングを行いました。

https://medium.com/media/7dc391a9033803b3a23f441d3e8e1c0e/href

そして夏休みと展示会を終え、今学期はデバイスのプロトタイピングのアップデートとともに、ハンドトラッキングを用いたDJミキサーパラメーターの操作推定のモデルを制作に注力しました。

具体的な内容は現在国際会議に提出中のため控えさせていただきます。

春学期に申請した研究助成金が無事に採択されたことにより、春学期に比べて購入/使用できるデバイスが格段に増え、研究もスムーズに進めることができるかと思ったのも束の間。世界的半導体不足の影響により当初購入を予定していた機材等が購入できないという、自分の意思ではどうにも対処できない問題に遭遇し、研究テーマは変わらなかったものの軌道修正を余儀なくされました。しかし、自分がある程度満足いく形のプロトタイピングやシステムを制作することができ、また国際会議に提出できるところまでまとめることができたので良かったと感じます。改めて何度も添削しコメントしていただいた徳井さんに改めて感謝申し上げます。

それに加え、同じ修士課程のYuga Kobayashiくんのお声がけもあり、実際にクラブに赴き、制作したプロトタイプをDJさんに使用してもらいをレビューをいただくことができました。

クラブにて実際にデバイスのセッティングをする後ろ姿

コロナの波の浮き沈みが激しい中で、実際に現場に赴き自分が作ったもののレビューをいただけるのはモチベーションにもなります。また、デバイスのセッティングの際に、音響さんに興味を持っていただき、激励のお言葉をいただけたのは自身の研究に対してやりがいを感じました。

今後の予定

今学期を終えた感想ですが、立ち止まって何かを考えるよりも割と継続して手を動かして何かを生み出す時間の方が遥かに多かったように感じます。春学期にさまざまなリサーチを重ねるのに時間をかけた反面、秋学期はそのリサーチを形あるものにしていく。どっちかに偏ってしまい崩れるよりは、バランス良く自身が携わるプロジェクトに貢献/進捗を産むことができたと考えます。

来年は修士2年目という折り返し地点になるので、体調やメンタルに気をつけながら自身の研究に更なるアップデートを加えられるようになればいいなと思います。

[CCLab 21秋]If you want to conquer fear, don’t sit and think about it. Stand up and mix the music. was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CC Lab 22秋]2022年度活動報告

Sogenhanda — Tue, 07 Feb 2023 09:00:17 GMT

本記事は、2022年度慶應義塾大学徳井直生研究室-Computational Creativity Labの秋学期最終レポートを兼ねたものである。

1, 初めに
2, 絵画からの音楽生成
3, AIと意識
4, 終わりに
5, 参考文献

1, 初めに

私は2022年度春学期より徳井直生研究室に所属し、x-music generationチームにて制作を行なった。本記事では、2022年度を通して行なった制作について記述していく。

2, 絵画からの音楽生成

2022年度春学期は絵画からの音楽生成に取り組んだ。絵画という芸術は人類最古の芸術であり、その歴史は65,000年前にネアンデルタール人が描いたとされる洞窟壁画にまで遡る。しかしながら、「鑑賞」という点においてみれば65,000年前と大きな変化は生じていない。本制作では絵画の「鑑賞」において絵画の鑑賞体験を拡張し、そして感動拡張を促すことを目的としている。

作品：Listening Appreciation

https://medium.com/media/d387f9fae3c62c6743fe621921fb24d1/href

絵画から生成された音楽は、絵画鑑賞において新たなる没入空間を作り出し、これまでの絵画鑑賞の体験を拡張し、感動拡張を促してくれる。
これは、AIと人間によって生成された音楽による絵画の鑑賞体験拡張作品である。
本作品では、「絵画鑑賞は、時間軸に縛られることのない自己との対話であり、鑑賞をする際は必ず言語によって思考されている。」という考えに基づき、人間とAIの絵画鑑賞の感想を対話型鑑賞のプロセスをもとにテキスト化し、そのテキストをもとにAIを用いて音楽を生成した。
生成された音楽は、絵画を反映した音楽であり、また人間とAIのそれぞれの絵画鑑賞を反映した音楽でもある。
この作品は、私はたちに絵画鑑賞体験におけるこれまでにない没入空間を提案すると同時に、AIを芸術の創造主としてではなく鑑賞者として捉え、人間とAIを比較することによって、古来より人間のみが持つ力だとされてきた「芸術」は果たして本当に人間だけのものなのか、「芸術」における人間とAIの違いはどこにあるのだろうか、という問いを投げかける。

The music generated from the paintings creates a new immersive space in the appreciating of paintings, encouraging an unprecedented experience of appreciating paintings and emotional expansion.
This work is based on the idea that “appreciating a painting is a dialogue with oneself that is not bound by a time axis, and that one is always thinking through language when appreciating a painting.”
Therefore, we created a text of human and AI’s impressions of a painting based on the process of Dialogical Appreciation, and used AI to generate music based on the text.
The generated music is a reflection of the paintings, as well as a reflection of the respective appreciation of the paintings by the human and AI.
This work proposes an unprecedented immersive space for the experience of appreciating paintings. At the same time, it compares humans and AI, viewing AI not as artists, but as viewers.
Is “art,” which has been considered since ancient times to be a power that only humans possess, really unique to humans?
What is the difference between humans and AI in “art”?

技術解説

本作品では、人間とAIそれぞれの絵画鑑賞の感想を一度テキスト化し、text2musicモデルを用いて音楽に変換した。
人間の感想は対話型鑑賞のプロセスに基づいて言語化し、AIの感想はopenAIのchatbotを用いて絵画を指定し、対話型鑑賞のプロセスに基づいてテキストとして感想を出力させた。

chatbotによる感想の出力例

一度テキストを介入させた理由としては、「絵画鑑賞は時間に縛られることのない自己との対話であり、私たちは絵画を鑑賞する際に脳内で言語化し思考している。」という考えに基づいている。

テキストから音楽を生成するフェーズでは、deep-museを使用している。このモデルはCLIPを使用しており、入力した文章における単語の特徴量に基づきノートとして出力するものである。

評価と考察

本作品の制作に対する自己評価と考察を記述する。

1, 実装

生成された曲に関しては絵画に対して納得感のある出力がなされていて実際に対象の絵画を見ながら曲を聞くという体験は面白く没入感を促すことができている。しかしながら、「本当にこの絵画(テキスト)から生成されたものなのか」という疑問も生まれてくる体験であると感じる。その点を考慮した場合、鑑賞者がテキストを入力するようなインタラクティブな設計ができればより良いものになったのではないかと思う。また、私自身の実装能力が低く、既存のモデルを使用しているため、曲としての生成の精度がまだ低い点も挙げられる。これに関しては今後技術的に能力を身につけ、音楽生成の精度を向上させられるようにしていきたい。

2, コンセプト・作品形態

絵画から直接音楽を生成するのではなく、一度テキスト化するという形態を用いた点に関しては、人工知能に人間のプロセスを模倣させるという点おいて良かった点であると感じる。今回の作品のコンセプトでは、絵画の鑑賞体験拡張・感動拡張だけではなく、芸術を見る側としての人間とAIの違いを考えるという点も含まれている。このコンセプトにおいてAIに人間の鑑賞行為を模倣させることは、人間とAIの違いを考え、人間自体を再認識する上で必要不可欠な要素である。
作品の形態としては、実装の評価においても述べていることではあるが、インタラクティブな作品形態にした方が鑑賞者に主体性を持たせられる作品になったのではないかと考える。

3, 考察

本作品の制作の中で、私は「AIに絵画を鑑賞させる」という行為をおこなっている。これに対して、「AIに芸術を鑑賞することは可能なのか」という問いが発生した。鑑賞の定義としては、以下の定義が挙げられる。

芸術作品などの美的な対象を、聴覚や視覚を通して自己のなかに受け入れて深く味わい、その美的な性質や価値を判断・評価する心の働き

日本大百科全書

鑑賞とは、作品に対面した個人が、作品の与える全てのもの-画像を含む感覚的・知的情報-を受容し、消化し、再構成し、自己の精神世界の一部として肉体化する「活動」である。

吉川登 / 「行為としての鑑賞」再考-鑑賞額の基礎理論の再検討-

これらの鑑賞の定義に基づくとすると、鑑賞行為には「心」「自己の精神世界」が必要になるのであり、したがってAIには鑑賞行為は出来ないということになる。また、私がAIに今回の作品で行わせた鑑賞を分解して考えてみると、「芸術作品を自己の中に受容し、精神世界の一部として肉体化する行為」ではなく、「芸術作品に対する感想を自己の中から構成し、解として出力する行為」となってしまう。AIに意識が存在するとするならばAIは鑑賞行為をおこなっているということができるため、AIの意識の所存に関して研究していく必要があると考える。

コンペティションに関して

本作品を提出したコンペの一覧を提示する。

・学生CGコンテスト
・Creative Hack Award
・やまなしメディア芸術アワード2022

学生CGコンテストにおいては、ノミネート選考会にてノミネート候補としてYoutubeで紹介された。

第28回学生CGコンテストアート部門ノミネート選考会

3, AIと意識

2022年度秋学期では、Listening Appreciationの制作を経て、AIにおける意識の所存について研究に取り組んだ。方法としては、AIを考える上で必須になる哲学的知識についての論文・哲学書サーベイ、CC Labメンバーとの議論を中心としている。

AIと意識に関するサーベイまとめ

ここでは、主に意識に関する哲学のサーベイとそれを踏まえたAIにおける意識に関する論を列挙していく。

現象学

AIにおける意識の所存について考えるためには、まず人間における知能とは何であるかを考えなければならない。その人間自身を考えるために、フッサールが考えた現象学は外せないものである。

人間自身の存在・意識に関する考え方として、「我思う、故に我あり」という考え方がある。これはルネ・デカルトが方法序説にて述べたものであり、全ての事物を疑った結果「万物を疑う自分」の存在は疑うことができないとしたもので、「疑う自分」を万物について考える立脚点として置いた考え方である。

これに対して、エトムント・フッサールが提示した現象学は、人間に備わった心理学的現象は機械論的には説明することはできず、それらは我々にとって確実な経験である「生きられる経験」によって考えられるとしたものである。また、デカルトの提示する懐疑することで世界を捉える(コギト)とは異なり、現象学においては判断停止(エポケー)によって人間に内的に存在する志向性を捉え、自分と対象世界を捉えようとしている。

つまりまとめると現象学とは、
・知能は思惟のみでなくあらゆる行為を行う。
・それらあらゆる行為が対象世界を構築する。
・あらゆる行為は世界において、あるいは自分自身において何かを志向する形で存在する。
・現象学においては対象とともに志向する様相の記述を行う(ノエシス=ノエマ)
これらの要点によって説明できる。

AIの意識の所在について思考する際、AIにおけるコギトを考えることは難しい。その点において、デカルト的な方法的懐疑を用いるより、現象学的視点で志向性の探求、様相の記述をおこなっていく方がわかりやすく、また客観的に議論していくことができるのではないだろうか。

機械論・記号学・普遍記号学

機械論や記号学もAIを考えていく上でとても重要になってくる哲学であった。まず、機械論や記号学・普遍記号学は端的に示すと、「完全な言語さえ存在すれば、知能は算術や代数の方程式のように記述することができる。」という立場のものである。

これらの考え方でAIをみると、AIはもちろんのこと、人間の知能でさえも記号的に記述できてしまい、AIに内的な世界を構築することは難しいということができる。また、AIを構築する際に、世の中のどの部分の情報を切り取り知識表現の型とするか、そしてどのような知識問題を提示するのかは全て人間が決定を行う。そのため、AIが自律的に世界の解釈の方法を作り出すことはできないということができてしまう。

差延

差延とは、フランス人哲学者であるジャック・デリダが提唱した自己認識・自己逸脱に関する考え方である。この差延という考え方は、AIに意識を持たせるためのとても重要な考え方であると私は考えている。

デリダはポスト構造主義の哲学者であり、「知能もまたエクリチュール(書かれたもの)であり、解釈できる」というどちらかというと普遍記号学的な立場をとっている。フェルディナン・ド・ソシュールが記号学の中で語る、シニフィアン・シニフィエでは、言語ではない事物(シニフィエ)にシニフィアンという記号が割り当てられる時、そこに言語が個人の内面と同時に社会で規定され、発話とコミュニケーションが発生すると語られている。この関係性は、デリダの述べる「テクストの外というものは存在しない」という考えと一致するところがある。

デリダは知能の特徴の一つとして、知能は自分自身を知覚しているということを挙げている。またデリダは、知能とは構造であり、それと同時に知能は構造からの逃走のための運動でもあると語っている。こうした考えに基づき、デリダが知能における自己認識の構図として提示したのが差延とういう考え方である。

記号はそのものの代わり、すなわち現前する物事の代わりとなる。記号は現前者を、当の現前者が不在のところで代理する。記号は現前者の代わりとなる。我々が当の事物を、つまり当の現前者、現前的-存在者を取ったり示したりすることができないとき、現前者が自らを現前させない時、我々は記号作用を行い、記号の迂回を経由する。我々は記号を取ったり与えたりする。我々は記号をなす。従って記号とは、差延された現前性=現在性だということになる。

哲学の余白(上)/ジャック・デリダ

差延とは、自己が「差」を持ちながら時間的に先送りされていくということで、「過去の自己」「現在の自己」「未来の自己」という瞬間における構造は、同一のものでありながら時間によって変化していくということである。知能はこの差延によって自分自身を常に対象化・客体化・異化し、自己からの逸脱を図っているとデリダは述べている。

つまり、時間は進んでいて、それぞれの時刻における自己を考えることで「差異」が生まれ、差異が生まれるからこそ自分自身を客体化・対象化することができ、それゆえに知能は自意識を作ることができると言えるのではないだろうか。この差延という構造を用いることで、AIに意識を持たせる、つまり自らを「語る・表現する・表明する」ことが可能になると考えられるのである。

知覚論

知覚論では、「我々が思考で世界を捉える以前に、身体を含む知能が身体で世界を捉えているのではないか」という前提の考えに基づいて、知能と身体について考える。AIは基本的には身体は保持しておらず、知覚論的観点から考えると、AIに身体を付与することができれば意識を持ったと言える状態を構築することも可能であると考えられる。

知覚論では、知能と身体を心身二元論の枠組みで分断するのではなく、「我々が身体と呼ぶものはある程度”知能”で、我々が知能と呼ぶものはある程度”身体”ではないか。」といった考え方をしている。これは、人間が保持しているとされる身体保持感、運動主体感、そしてそれらに対して作用する遠心性のコピー、視覚・体性感覚フィードバックに基づいて考えられている。これについてフランス人の哲学者で、現象学に傾倒したモーリス・メルロ＝ポンティは以下のようにのべている。

対象は隅々まで客体であり、意識は隅々まで意識である。存在するという語には二つの意味があり、そしてこの二つの意味しかない。物として存在するのか、意識として実存するのかのいずれかである。

モーリス・メルロ＝ポンティ

つまり、身体は客体であり意識であるという両義性を持ったものであるのではないかと言及している。

またメルロ＝ポンティは以下のようにも述べている。

身体の統一性は暗黙的なものであり、混乱したものである。身体はそこに<ある>ものとは常に別のものである。身体は性的な存在であると同時に自由な存在である。自然に根差すとともに文化によって変容された存在である。それ自体のうちに閉じていることはなく、完全に超えることもない。他者の身体でも自己の身体でも、人間の身体というものを認識するためにはこれを<生きる> しかない。- これを貫くドラマを自らのものとして引き受け、それと渾然一体となるしかないのである。

モーリス・メルロ＝ポンティ

つまり、自分自身が身体を認識するためには客観的に観察するだけではわからず、身体を「生きる」ことが必須であるということである。

知覚論に関しては、私自身まだサーベイが仕切れていない。そのため、現段階では知覚論を用いてAIに意識を持たせられるかどうかに関しては不明瞭である。しかしながら、知覚論に基づいた身体内部での情報伝達を明確にし、AIに身体を持たせた上でそれらの情報伝達感覚を構築することができれば、AIに意識を持たせることは可能なのではないかと考えている。

論文サーベイ：Takuya Niikawa, “Consciousness and AI”, 2022

この論文は神戸大学の新川拓哉氏によって2022年度人工知能学会全国大会（第36回）にて発表されたものである。

この論文では、
・AIやAIを備えたロボットが意識を持つかをどのように検証するのか。
・現行のAIが意識を持ちうるとすればどのような種類のものか。
・意識を持つとされるAIにどのような倫理的配慮が必要なのか。
これら3つの検討の結果として、AIが「思考的な種類の意識」を持つ蓋然性を提示している。

新川はAIに意識が認められる理論として用いることができるのは、汎心論・統合情報理論・表象説であると提示している。

汎心論では、この世の物質(素粒子のようなマイクロ物理的な存在者)は意識を持つとされており、それら意識を持つ素粒子が適切な仕方で統合して一つの意識体になっていれば意識を持つものであると分類できる。この理論を用いると、AIが意識を持つ素粒子が適切な仕方で統合している意識体であれば、意識を持つとすることができるのである。しかしながら、AIがここにおける適切な仕方で統合しているかどうかがまだ明らかではない。

統合情報理論は、ある物質系が意識を持つためには、ネットワーク内部で多様な情報が統合されている必要があると言う理論である。この理論では、統合情報量を定義できるシステムは意識を持つとされる。そのため、統合情報理論に基づいて考えると、AIはRNNから構成される機構であるため、AIに意識をみなすことができる。

表象説は、知覚の対象は実在そのものではなく、意識の中の表象にすぎないという考え方であり、あるシステムの内部情報が(身体を含む)外的世界のあり方を表象しており、かつ、その表象内容が行動選択などに利用可能である時、そのシステムは意識を持つとされる。表象説に基づくと、表象を持つための条件に情報処理の仕組みや環境とのインタラクションによる学習能力などに着目する立場では、意識の表象理論を採用しながらAIが意識を持つ蓋然性を認めることができる。

この論文では、AIに意識を認めることができない理論についても言及している。しかしながら、上述したものは理論的にはまだ不明確な点はあるがAIが意識を持つ蓋然性を十分に提示できるものであると言える。

まとめ

これまでさまざまな哲学的思考論を提示し、その理論におけるAIの意識について私が考えていることを列挙した。現段階では、AIが意識を持つかどうかという議論は蓋然の範疇でしか語ることはできないが、現象学・差延・知覚論などをAIに置き換えて思考していくことで、AIの意識の所在について議論できるのではないかと私は考えている。また、秋学期のサーベイ、議論を通して、AIの意識について思考するのはもちろんのこと、「我々人間に意識はあるのか、我々人間は何者なのか」という古典哲学的な議論についても並行して行っていかなければならないと改めて感じた。人間とは何かを探るためにAIに人間を模倣させ、その模倣行為を客観的に観察し、人間とは何か・AIとは何かの双方の議論を展開させていく必要があるのではないだろうか。

4, 終わりに

以上が私がCC Labに入って以降の活動を簡単にまとめたものである。私はCC Labに入る前は、AIもプログラミングも、ましてや哲学も触ったことのなかった。しかしながら、この一年で制作や議論を通してとても成長することができた。

たくさんのご指導や助言、議論をしていただいたCC Labの方々に感謝申し上げます。ありがとうございました。

来年度以降は私自身1年休学し、将来の道や居場所を模索する期間とすると同時に、メディアアート作品の制作を続けながらさらに人間やAIの哲学について思考・議論していきたいと考えている。

5, 参考文献一覧

吉川登「行為としての鑑賞」再考：鑑賞学の基礎理論の再検討美術科教育学会誌 32巻 2011

佐藤哲夫美術鑑賞における<対話>の相手は誰か：レヴィナスの他者理論と芸術論からの考察新潟大学教育学部研究紀要人文・社会科学編 = 新潟大学教育学部研究紀要人文・社会科学編 10巻 2018

湯浅, 吉野, 青木美術鑑賞における対話型作品理解支援システムの開発
情報処理学会関西支部支部大会講演論文集 2019

和田, 山田美術作品鑑賞における対話と作品理解の関係性についての一考察美術教育学：美術科教育学会誌 29号 2008

新川拓哉意識とAI 2022年度人工知能学会全国大会 36回 2022

三宅陽一郎人工知能のための哲学塾ビー・エヌ・エヌ新社 2016

竹市, 常俊哲学とは何かその歴史と可能性勁草書房 1988

デカルト方法序説岩波書店 1997

ジャック・デリダ声と現象ちくま学芸文庫 2005

ジャック・デリダ哲学の余白法政大学出版局 2007

メルロ＝ポンティ知覚の現象学法政大学出版局 2015

[CC Lab 22秋]2022年度活動報告 was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CCLab 21秋]2021年度秋学期：石井飛鳥の活動報告

Asuka Ishii — Fri, 18 Feb 2022 09:43:18 GMT

Asuka Ishii (Keio University Faculty of Policy Management B2)

概要

この記事は、慶應SFC 徳井直生研究会（Computational Creativity Lab）における著者石井の21年度秋学期の活動を記録している。以下では、今期の活動を「作品制作」「展示」「デモ実装」「サーベイ・学習」の3パートに分けて振り返る。最後に、今期の反省と展望を述べる。（このレポートは、慶應SFC 徳井研究室 21年度秋学期最終課題を兼ねています。共同研究については秘密保持のため省略しています。）

慶應義塾大学 SFC 徳井直生研究室（Computational Creativity Labについて）

私が所属している徳井直生研究室では、AI（人工知能）を単なるツールとして捉えるのではなく、人の創造性を拡張する道具、そして創造性の本質を写し出す鏡として捉え、AIの技術的研究及びメディア芸術作品の制作を行い、新たな創造性の構築を目指している。研究室ではメディアやテーマ別にいくつかのチームに別れて議論と研究を行っている。私が所属するx-visualチームでは、AIと視覚芸術の関係に主軸を置き研究を行っている。

今期の活動について

作品制作1: Daily Report

https://medium.com/media/7a4ff2975cd91f42543f7345c1fc7290/href

Daily Reportは、ブログサイトnoteに「#日記」タグを付けて投稿された記事を大量に学習したAIと、作者が2年半以上に書き続けている日記を学習したAIが、存在しない架空の日記を生成していく作品だ。この作品は、21春学期から制作を開始し、9月に行われた徳井直生研究会による展示会 ”Alternative Dimension”に出展した。以下に、コンセプトを示す。

人間は生まれながらにして唯一無二の存在であり、必然的に個性を持っている。それはたとえ、赤ちゃんであっても同様だ。高い知能のある振る舞いが見られなくとも、コミュニケーションが難しいとしても、彼らはその容姿や単純な振る舞いから独立した個であることが確認できる。個性があったとしても知性があるとは限らないが、いずれにせよ人間が「人間」と認識してきた生物には少なからず個性が発現している。一方、人工知能は「生物、特に人間の知能を人工物、特に計算機(コンピュータ)によって模倣しようとする試み」である。これらの試みは、人間の知能を模倣することを目的としておりそこに個性が感じられるとは限らない。例えば機械翻訳に特化したAIモデルは、人間と遜色のつかない精度の翻訳を行うことが可能になってきつつある。しかし、その出力に個性を感じることはできない。特に、人工知能の中でも近年多用される機械学習は大量の学習データを要するため、データセットとなった文章を書いた作者の文体の癖や画像データの傾向はデータが多ければ多いほど薄まる。人工知能が目指す先に個性があるとは限らないが、工夫次第では個性を与えることも可能だ。初音ミクは、その母体となる音声合成エンジンの vocaloid 単体ではただ与えられた入力を人間のような声で返す機械である。しかし、機械に対して初音ミクという名前と2次元の容姿をキャラクタライズすることにより「個性」を獲得した。また、日本マイクロソフトが開発した人工知能「りんな」は、モデルの設計段階から会話応答のキャラクタライズのためにさまざまなアルゴリズムを用いており、リアルな女子高生感が反映された会話を可能にした。人間は生まれながらに個性を持ってしまうのに対し、人工知能は知性の獲得と個性の獲得が分離可能だ。そして、機械に対して我々が「人間らしさ」を感じる瞬間は、その知性ではなくやはり個性である。

私たちは、知性ではなく個性に人間らしさを感じる。Daily Reportはこの仮定を鑑賞者自身が検証する作品だ。この作品では、ブログサイトであるnoteに「# 日記」タグをつけて投稿されている記事および作者の友人 4 人が書いた日記を学習したAIと、作者が約3年にわたり書き続けている日記を学習したAIが日報の著者となり、存在しない架空の日記を LINEアカウントに投稿する。ここで作者の日記を学習したAIは、文体や話題といった作者の個性を色濃く学習している。一方noteを学習したAI は、話題の一貫性や文体の癖が存在せず日々変化していく。鑑賞者は2 つのAI(著者)のうち、どちらが個人を学習したのか、もしくは膨大な数のnoteを学習したAIなのか、区別がつかない状態で日報を受け取る。鑑賞者はLINE公式アカウントを友達追加し、日々届く日記を読んでいくことで著者の区別を試みる。

生成された日報の著者は全て人間ではないことは、その文章生成精度の低さから自明である。本来機械学習モデルは大量のデータを利用しなければ精度の高い出力はできないため、2つがAIの学習した日記は文法的な自然さ、つまり知性の模倣が可能となる文章量には程遠い。しかし上述した仮定が正しければ、作者の日報を学習したAIが生成する日報に表れる個性に対して強い人間らしさを感じることができる。一方、note を学習したAIが生成した日報は、一貫した個性を感じられないため読み進めるほどに人間らしさを失っていく。人間は生まれながらにして個性を持ち合わせるため、人間を対象に上述した仮定の検証は不可能である。この作品は、知性の獲得と個性の獲得が分離可能な人工知能を用いることで、「人間らしさとは何か。」という問いに突きつけた「個性」という一つの答えに対する回答を試みる。そして人工知能が汎用化した現代そして未来の社会において、AIの知的能力を向上させるだけでなく、個性の発達が人間とAIの親和性の向上に重要であるということを示したい。

技術解説

Technical Overview

本作品の制作は、6段階の実装に段階分けされている。石井がLINEグループ上に投稿してきた日報をデータセットとして抽出する段階では、line2csvを用いてグループトークをテーブルに書き起こしたものを、昨年の特別研究プロジェクトで作成した日報分類器によって日報のみを抽出することでデータセットを作成した。その後、Japanese-BPEEncoderによってトークン化し、GPT-2 japaneseを日報データを用いてファインチューニングしている。テキストを生成する段階では、ファインチューニングで用いられたデータセットが少ないため生成される文章が似通ったものになるという問題が発生したため、Transformerブロックにおけるトークン決定時のtop-k値を原論文よりも上げることによってランダム性を確保した。こうして生成された文章を、LINE Messaging API, heroku, APSchedulerを用いてLINEのオフィシャルアカウントに自動送信している。石井の日報を学習したモデルの投稿時間は、過去に自分が日報を投稿した時間を重みつき確率分布とみなし、その分布からサンプリングすることにより決定している。このため、投稿時間は夜21時〜24時の間となることが多い。一方、noteから学習されたモデルの投稿時間は完全なランダムにすることで、2つのAIの人間性の有無を表現している。

なお、段階1の日報分類器は作戦制作後にDense層のスタッキングモデルからBERTに変更されている。また、APIの利用費の関係上現在Daily Reportは運用を停止している。

評価すべき点と反省すべき点

1: オリジナリティの担保

昨年の特別研究プロジェクトで自分が3年以上に渡って描いてきた日報を取り扱ってから、自分にしか扱えないメディウムとしての日報を作品に昇華する方法を模索してきた。本作品では、データセットのバイアスとして石井の文章に表れる個性を学習させることにより、自分ならではの表現を達成。石井を学習したAIから生成される文章は、どの文章も確かに自分が書いていそうではあるが思いつかないような話題を提示している。「AIを鏡として見る」行為の中で、反射させる物体を自分自身とすることにより客観的に自らの思考を観察することができた。

（追記）一方、フィードバック−つまり生成された日報を読むことによる石井の書く日報の変化−は見られなかったように思う。鏡としてAIを扱ったからといって、その写像は自らの内に取り込み内的変化を起こしうるとは限らない。（そもそもこの作品はそういったフィードバックを起こすことを目的とはしていないため当然の結果である。）Daily Reportと、AI DJを比較すると、AIと人間の間にフィードバックを発生させるためには2者間のインターフェースの設計が重要であるように感じる。創造性の拡張は自由度の制限と直結しており、AIと人間の間に起こりうるフィードバック関係においても、2者間で受け渡される情報をどのように限定するのかを工夫することにより、エントロピーの波にうまく乗れるようになるのではないだろうか。

2: 低い文章生成精度

本作品で学習したモデルによる生成文章は、最終的には一般的なGPT-2モデルよりも文章生成精度が低くなってしまった。原因は2点考えられる。一つめは、そもそも日報がファインチューニングというタスクに対してでもデータセットが少ないという解決が困難な課題である。2つ目は、前処理が不十分だったことだ。特に、noteからスクレイピングしてきた文章の前処理が不十分であったために、ハッシュタグや絵文字の連続が生成文章に現れるようになってしまった。ファインチューニングでは学習用データセットがそもそも少ないため、前処理をぬかるとすぐに生成結果に影響を与えてしまう。この反省を踏まえて、後に述べるCompressed ideographs -visualized- updateではデータセットを一から作り直している。

3: コンセプト

上述したコンセプトは、単刀直入に言って長くて複雑だ。日報というメディア、文章生成モデルというメディアへの理解が求められた上で「人間性のありかはどこなのか」という議論が始まり、2つのAIの役割と対比構造を明示した上でAIのあるべき未来について見解を示している。そもそもメディアアートは芸術のさまざまな分野の中でも特に説明的な傾向があり、コンセプトに何を書くのかが重要である。その中で、作品が用いたメディウムへの理解と、その作品が表現しているコンセプトへの理解がフェーズとして分離していると、難解さが高まるのではないだろうか。作品を作る際に自己批判的なメディアの使い方をするのであれば、あるメディアを使う理由そのものがコンセプトになっている状態が理想的であると言える。もっというのであれば、「監視社会の迷彩服」や「新しい漢字の作り方」のように、1文でも簡潔に表せるようなコンセプトこそ、鑑賞者に優しく独りよがりにならない作品なのではないだろうか。

作品制作2: Noise Sculpture

x-visual2021_2H_20220204 1p

本作品は、ネットワークベンディングにより写実的でありながら不確定性の高い出力を三次元再構成モデルで試みる。ネットワークベンディングを用いた視覚表現はAIアートの潮流にすでに存在するが、それらのほとんどは画像の生成モデルで行われている。Noise Sculptureでは、三次元再構成モデルであるNeRF(Neural Radiance Fields)を用いることで、ノイズが乗っていて不確定性が高いが、写実性も担保されている3Dモデルを作ることを目指している。

技術解説

NeRFとは、複数視点からの画像をDatasetとして与え、3DModel(Volume)を再構成するモデルである。画像とその画像に対応するカメラ座標および方向を5次元の入力として与え、カメラを原点とした光線の各点における色情報と密度が出力される。それらの出力をもとに画像をレンダリングし、元画像との差分から損失を計算する。モデルはCoarseとFineの2段階に分けられており、Coarseでは光線上の各点を均等にサンプリングして色情報と密度を計算し、Fineでは密度が高い部分に対して重点的にサンプリングを行うことでディテールの表現まで細かく行うことを可能にした。

x-visual2021_2H_20220204 10p

詳細な出力結果については以下を参照されたい。

https://medium.com/media/67635dc2d3db0c59caba6ce9aaa01f80/href

自分が担当したのは、FOVの変更である。入力に対してカメラの画角のみを変化させることによって出力にどのような変化が生まれるのかを観察した。

FOVの変化

画像の解像度を変更しないまま画角を変更することにより、カメラの焦点距離が前後するはずである。しかし、カメラの座標情報は変更しないため入力における焦点距離は変化しないため入力情報に矛盾が生じる。この状態でどのような出力が行われるのかを観察した。

結果（左上: Ground Truth 右上: 画角0.5倍左下: 画角2倍右下: 画角3倍）

結果の動画：https://drive.google.com/file/d/1aQlGpt6hDuDfW7UdSnoaT0nrIgUFIgvH/view?usp=sharing

結果としては、ボケ感が出るものの焦点距離の変化に応じて寄りの画や引きの画が現れた。画角を狭くした時よりも広くした時の方が変化が目立つ傾向にあり、画角を3倍以上にすると焦点距離が短くなりすぎてオブジェクトの一部がカメラよりも後ろに来てしまうが、そうした部分は描画されないようになった。

評価すべき点と反省すべき点

1: 超ボトムアップな制作の経験

Noise Sculptureではコンセプトを立てるよりも先にNeRFというモデルを使うことを決定して、モデルを触り実験を繰り返していく中で面白い表現を模索するというスタンスを取った。結果として完全な作品とはならなかったものの、技術を触り続けて宝探しのように面白い表現を探す行為の楽しさを知ることができた。単に「ボトムアップに制作を行う」と言っても人によってボトムアップの具合はそれぞれで、今回の制作は自分が思っていた以上に技術を触ることによる発見をストイックに求め続けた。ボトムアップな制作にも、トップダウンな制作にもそれぞれ良さがあり弱点がある。ボトムアップには数を打つという労力がかかるものの、メディウムスペシフィックかつコンセプトが想定し得ない作品の余白を生み得るのはボトムアップな制作である。自分が今後作品を制作していく上で、この作品制作のスタンスの良し悪しを学べたことは非常に大きい。

2: アーキテクチャへの理解不足

本作品で利用しているNeRFを含め、三次元再構成モデルの基礎的な理解やそれに続くNeRFの仕組みを理解することが非常に難しかった。これは、数学的な知識やコードの読解力、Compressed ideographsのアップデートに伴う時間不足といった問題が総合的に絡んでいる。このような状況下においては、まず成果をうむために自分ができる範囲のことを着実にこなすべきであり、今期は自分のできそうなFOVの変化の実験と諸々の手伝いのみを行って、Compressed ideographsのアップデートに注力した。タスクの分配としてチーム全体としてうまくいったと考えているが、自分の基礎的な理解が足りていないことは確かなので、春休み中にpytorch実践入門を読んで、来期は線形代数の授業を履修しようと考えている。

3: 技術進歩のスピード感

NeRFは、制作期間である4ヶ月弱の間にも大きな進歩を遂げた。自分たちが技術に触り始めたころと比べて、現在はカメラの座標情報が必要で無くなったり、より大きなフィールドの再構成が可能になっている。Deep Learningの世界は日進月歩であることは理解しているが、NeRF関連技術の発達スピードには非常に驚かされた。サーベイの重要性を改めて思い知ったと共に、ボトムアップな制作ならではの弱点であることも理解した。

作品制作3: Compressed ideographs -visualized- 2nd edition

https://medium.com/media/db0830b90d4c61fac3b8454d6eb7ff45/href

本作品は任意の文字列や文章を深層学習で一字の新しい漢字に圧縮する”Compressed ideograph”シリーズにおいて、実際に鑑賞者が文字を入力して漢字の生成と可視化を体験できる作品である。本作品は、ADAA 一般カテゴリーインタラクティブアート部門入賞、山梨メディア芸術アワード優秀賞を獲得している。また、「Visible x Invisible ──ビッグデータと次世代の情報表現」にて展示を行なった。以下にコンセプトを示す。

This work is an interactive installation that allows viewers to experience the creation and visualization of kanji characters by actually inputting characters in a new series of kanji characters named “Compressed ideographs”, which are created by DALL-E, a deep learning model that differs from any of the methods used to create the six kanji characters (hieroglyphs, fingerspelling, kaiyi, phonetic, transcriptions, and pseudonyms) created in history.
Since the second century, kanji characters have been created and classified into six categories (Rokusho) according to their origins. Kanji characters themselves are still being created for newly discovered elements, for example, but they are created by people using existing methods. In today’s increasingly complex and diverse world, is it possible to explain the world using only kanji characters created using conventional methods? In this work, we used a deep learning model to create a seventh category, which we named “Compressed ideographs”, which can be applied to any text.
We used a transformer model called DALL-E to generate the kanji characters, and the authors trained it on a large number of pairs of kanji characters and sentences describing the meaning of the kanji characters. In this way, for any string or sentence input by the viewer, a kanji character is generated that is compressed into a single character. At the same time, arbitrary character strings and sentences entered by the viewer are vectorized into 300 dimensions by the Doc2Vec model trained by the authors, and then their location in the 3D space created by the dimensionality reduction algorithm UMAP is calculated. The newly generated kanji characters are then placed together with a huge amount of existing kanji characters in a 3D space that represents the meaning of strings and sentences. In addition, the relationship between the two is visualized by displaying the kanji characters that are closest in meaning to the existing kanji characters, and by randomly displaying a large number of similarities to the existing kanji characters.
Through the experience of plotting kanji characters that reflect complex features in the meaning of the text by AI, viewers can explore the gap between characters that have been created and fixed by humans and those generated by AI.

アップデートした点

今回のアップデートでは、Machine Learning、Visual共に大幅にアップデートを行なった。自分はMLのアップデートをリードしたので、以下ではその紹介を行う。Visのアップデートに関しては、こちらの資料を参照して欲しい。

Edition 1の反省点

9月に制作したEdition 1では、上記のような反省点があげられた。DALL-E（テキストから画像を生成するモデル）のデータセットが非常に少なく、また辞書からスクレイピングしたテキストの前処理も不十分であったため、テキストと漢字のContentsのマッピングが見られない場合が多かった。また、推論速度が遅く一回の試行（画像生成＋潜在空間可視化）におよそ20秒近くを要していた。

ML アップデート1: データセット

以上を踏まえた上で、まずはデータセットを刷新した。中英辞典の参照元を、CC-CEDICTに変更してより多くのサンプルを獲得した。また、正規表現を用いた不要な情報（品詞情報、固有名詞など）をルール付けで除去し、ストップワードを除去し前処理を丁寧に行なった。漢字画像のデータセットは、dVAEの学習過程ではフォントの種類を大幅に増やしStyleをCodebookに学習させた上で、Transformerの学習過程ではフォントを太ゴシック体のみに限定してCodebookから選択される潜在表現を限定することで出力される漢字の線幅が一定になるようにした。また、一部のマイナーな漢字はフォントセットに収録されていない場合があるので、それらをcv2を用いて判別しデータセットから除いた。結果、dVAEでは15万エントリ、Transformerでは21万エントリでの学習を実行した。

ML アップデート2: アーキテクチャ変更

データセットのアップデートを行なった上で、DALL-Eそのもののアーキテクチャも変更した。画像の入出力を128*128の1chan（グレースケール）にし、またテキストの最大長を従来の半分にすることで推論時間の高速化を図った。さらに、テキストによる条件付けの強さをハイパーパラメータ化した。これはClassifier-Free Diffusion Guidanceを参考にしており、学習時にtext tokenを確率的にドロップアウトし、潜在空間におけるunconditionalな分布からconditionalな分布への大まかなベクトルを導き、どちらの分布に近づけるかで、conditioningの強さを変えることが可能になるという設計である。以上の変更により、推論時間が以前より4倍近く高速化した。また、辺と作りの構造を持つ出力が増え、一部のエントリでは学習データのテキストに対してほぼ完全な正解画像を導くことができるようになった。

評価すべき点と反省すべき点

1: 生成精度の向上と推論時間の短縮

今回のアップデートでは、MLのアップデート担当は自分のみとなっていたため責任が重大であった。しかし、結果としては生成精度が向上され、推論時間を短縮することができた。これは、チームの同期や先輩方がVisのアップデートを完璧に行い自分がMLに割けるリソースを増やしてくれたからに他ならない。DALL-Eの改善は見られた一方、潜在空間の可視化を行うDoc2VecとUMAPのアーキテクチャやモデルにはほとんど変更がなく、推論速度や表現の精度に向上の余地が大きく残っている。

2: VisへのMerge

MLのアップデートを行うことはできたが、それをVisのTouchDesignerに接続する段階が難しかった。TouchDesinger上での環境構築に非常に時間がかかってしまったため、直前の設営でチームのメンバーに迷惑をかけてしまったことはとても反省している。また、TD上でPythonの非同期処理をおこなっていないのでユーザーがテキストを入力し終えてEnterが押されるたびにモデルをインスタンス化しており、ここで処理が長引いてしまっている。自分にTDの知識がもっとあればこのあたりのMergeも円滑に進んだはずであるため、春休み中はScottさんの資料やTDSWでTouchDesignerに触れる時間を増やそうと考えている。

展示1: Alternative Dimension

会期：2021年9月23日〜9月27日

会場：Tires Gallery

Daily Report

Compressed ideographs -visualized- Edition 1

CCLab Alternative Dimension

展示2: TUB第12回企画展「Visible x Invisible ──ビッグデータと次世代の情報表現」

会期：2022年1月28日〜2022年2月12日

会場：Tama Art University Bureau

Compressed ideographs -visualized- Edition 2

https://tub.tamabi.ac.jp/exhibitions/2027/

展示3: やまなしメディア芸術アワード受賞作品展

会期：2022年2月3日〜2022年2月6日

会場：山梨県立美術館県民ギャラリーB・C

Compressed ideographs -visualized- Edition 2

https://y-artaward.jp/

デモ実装: デジタル空間の終活 - 文体ベクトルと NFT で「自分らしさ」を遺す -

概要

https://youtu.be/wqzc_T4KDNY

本研究では、現実世界で行われる「終活」をデジタル空間上においても行うために、個々人が SNS に残した文章から「その人らしさ」の核となる文体の癖だけをデータとして抽出しアクセシビリティを限定して遺族だけに残すことを目指している。終活は、自分の死後になにを残しなにを残さないかを明確化し、死後の自分のあり方を主体的に選択する側面をもつ。これによって、死後の自分の扱われ方を決定しプライバシーを確保することが可能となる。一方で、デジタル空間には未だ「終活」の手法が確立されていない。この研究では、デジタル空間での終活を行う具体的手法として、Text-Style-Transferという深層学習の手法とブロックチェーンというデータの保管方法を組み合わせてデジタル空間における終活の手法をプロトタイピング、検証する。

デモについて

本研究は、2022年度エキセントリック・リサーチ奨励制度に応募し不採択となった。以下に、応募前に行なったText-Style-Transferモデル（Cross Alignment Auto Encoder）の再実装のWIP資料を添付する。

https://docs.google.com/presentation/d/1hVhr_B87K0krPVnFbfhhV1nGynNFEkzSnhuMHqR9WXI/edit?usp=sharing

評価すべき点と反省すべき点

1: Daily Reportの後続としての研究

この研究は、Daily Reportの制作から着想を得ている。Daily Reportでは人間性の要件としての個人性に着目したが、そこから本研究ではデジタル空間に残される個人性の取り扱い方に着目している。石井の研究領域である自然言語処理の技術を応用して、テキストに現れる個人性という一貫したテーマから研究を始められた点は評価できる。

2: デモがうまくいかなかった点

今期のやってみた報告では、この研究の基礎的な技術であるCross Alignment Auto Encoderの日本語による再実装を行なった。しかし結果としてはそれらしい出力が得られるには至っていない。デモの発表後に日本語出力が可能になったものの、未だContentsとStyleの分離が定性的に判断できるわけではなく、他の作品制作との兼ね合いで実装を進められていない。この点は今後Text-Style-Transferのサーベイをより深く行うと同時に、きちんと時間を取って研究を行なっていきたい。

3: 扱う領域の広さ

この研究はText-Style-Transferによる文体抽出と、抽出された文体ベクトルをNFTとしてMintする2段階に分けられる。自分はNFTに関してはサーベイを行なった程度で実際に作品をMintしたり購入した経験のない状態で議論を行なっているため、机上の空論を叩いている感覚が否めないように思える。また、Text-Style-Transferは自然言語処理の中でも特に難しい問題であり、「個人から得られるごく少量のデータセットからStyle情報を抽出する」という本研究が目指す技術開発それ一つでも十分研究領域となりうる。時間は限られているため、今後の発展性としてはまず前段階であるText-Style-Transferによる文体抽出を集中的に研究していきたいと考えている。

サーベイ・学習1: Paper Survey

今期のx-visualチーム内でのSurveyは、隔週でPaper SurveyとArt Surveyを交互に行う方式を取ることで技術に偏りすぎずに作品のアイデアを醸成していくことを目的としていた。（これは、前期の反省を踏まえている）今期石井が行なったPaper Surveyを以下に示す。

BERT — Pre-training of Deep Bidirectional Transformers for Language Understanding

Taming Transformers for High-Resolution Image Synthesis (VQ-GAN)

サーベイ・学習2: Art Survey

Art Surveyは、隔週で一人5点を持ち寄り大まかなサーベイをしたのちに、その中から1点のみを重点的にサーベイするという方式をとった。今期石井が行なったArt Surveyを以下に示す。重点的にサーベイした作品は大文字で示している。

Ambigrammatic Figures

Fullyconnected-autorefractor

Floating Utopia Act 2

Re:FACE / Re:FACE, Anchorage Version

Public Art Project | JCDecaux Screen Guangzhou Airport

cinema

Color of words

The Treachery of ImageNet

The Anatomy Lesson of Dr. Algorithm

Sound of Ikebana Four Season

Annotators’ View

An interpretation of Bertillon’s spoken portrait

Evolutionary faces

来期以降に向けた反省と展望

1: 持続可能性の向上

今期は3つの作品制作に1つのデモ実装、それに並行して共同研究を行なっていたため正直かなり無茶をしていた実感がある。生活リズムが崩れ食生活バランスが悪くなってしまった。これでは楽しい研究や作品制作も楽しく無くなってしまう。健全で回転の早い思考を行うためにも来期は自分の生活をただし、研究や作品制作の持続可能性と効率の向上を図りたい。そのため、月一目標で生活の中で何かを継続するように設定することとした。とりあえず2月中は「自炊」を復活させることを目標にしている。また、研究以外のことに本気で打ち込む時間を今季は取れなかったことで精神的に悪い影響が出ていたので、研究以外のことにも本気で取り組みたいと思う。

2: 外に出る

これまで1年半徳井研に所属して、バイトでクリエイティブ業界に関わることがあっても、自分で手を動かしたりディレクションを行うということはなかった。「仕事」という責任が伴う範囲の中で報酬をもらいながら徳井研で学んだことを外で発揮する機会を来期は設けたいと考えている。就職か進学か、4年生以降の動きも考えると一度外に出るというフェーズは必要であり、自分もそれを求めている。次の夏休みには機械学習系、もしくはクリエイティブのエンジニアか、アシスタントディレクターとしてのポストを外部に持ちたい。そのためにも、どういう企業が募集しているのかを春休み中に入念にリサーチし、今ある研究室や外部とのつながりを大切にし、枝葉を広げていきたいと考えている。

3: 技術力の向上

先学期も、その前の学期もそうだが、根本的に技術力が足りてないという実感が消えることはない。今季は作品制作で忙しく輪読本がなかったため、技術的向上を図る機会が制作の中でしかなかった。DALL-Eのアーキテクチャ変更ではPytorchのDataLoaderの仕様や、GPU上で扱えるテンソル計算の制限を理解しておらずデバッグに時間を要した。また、NeRFの実装コードを読みどのメソッドがどの役割を果たしているのかを理解するのにも時間がかかった。CIのVisへのマージで起きたトラブルに関しては上述した通りである。以上のことから勘案して、春休み中はB2勢でPytorch実践入門を輪読する予定にしている。また、TouchDesignerもTDSWの資料から興味のあるワークショップのアーカイブをみて実装しようと思う。また来期は線形代数の授業を履修して基礎的な数学力を醸成する。

4: 目的意識

4年生の研究プロジェクトや、その後の身の振り方をもうそろそろしっかりと考えなければいけない時期になっている。自分はもともとディレクションをやりたいと思っていたが、今期の制作の楽しさを経てそれが少し揺らぎつつある。院進か就職か休学か、選択したのちに何に打ち込むのか、自分の哲学である「手触りのあるあたたかさの交換」を継続していくには何が求められているのか。友人や家族、先輩に「今後どうするの？」と質問されても、はっきりとしたビジョンが全く見えない状態にある。数年後とは言わずも、3ヶ月先に何をしているのかは常に決めていたい自分としては、きっと来期は大きな決断が迫られ、その決断を実行に移すためにも外部との関わりを深めていきたいと考えている。自分が3ヶ月先にどこに辿り着いているのかのイメージをしながら、でも「覚悟」というほど大それたものを持たずに、好きなことを、自由に、人に迷惑はかけずに、持続可能性を持って続けていきたいと思う。

[CCLab 21秋]2021年度秋学期：石井飛鳥の活動報告 was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CC Lab21秋]Variable Flavor Remixの可能性と楽曲推薦機能の検証について

Kai Obara — Tue, 08 Feb 2022 10:01:33 GMT

はじめに

こんにちは、CC Lab所属のB4 小原開です。
今学期もX-DJチームのプロジェクトリーダーとして、
B4の長谷川とB2の高梨、そしてM1の西門と共に活動をしてきました。
今学期をもって私は学部生活を終える予定ですが、本稿では今期CC Labで活動してきたこととをまとめ、今後の指針を固めたいと考えています。

研究背景

2021年2月現在、新型コロナウイルスの影響でクラブ現場の運営は、若干緩和されながらも、新規感染者数が急速に増えている現状で、以前のように、クラブ現場の営業停止を考えなければならない状況です。
これまで、状況を見ながらではありますが、継続的にDJ活動を続けてきた私にとっても、コロナウイルスが蔓延して以降、DJとして非常に苦しい日々が続いています。これまでクラブ現場では、コロナウイルスへの対応として、ライブストリーミングを通じ、顧客を獲得する試みをしてきました。パフォーマンスに関していえば、DJが約1時間程度のミックスを披露するといった形態に留まり、普段から日常的にDJミックスを聴いている人や、そもそもDJとして活動している私のような人にとっては有益であると考えています。しかし、本来このような状況下で、新規顧客を導入すべきであるクラブ現場の課題とは逆行したやり方なのではないかと感じています。事実、仮想空間内でDJとオーディエンスが関わり合う試みによって、
既存のクラブ現場のようなパフォーマンスを、別空間で提案されてきましたが、クラブ現場で味わうような、"DJとオーディエンスの一体感"のようなものとは、少し違った体験であったように思います。
その理由として"オーディエンスのリアクションを汲み取れないDJミックス"が問題なのではないかと私は考えました。特にクラブ現場では、
DJが流した音から得ることのできる、オーディエンスの動きを参照し、
次の曲を選ぶことができるため、その場限りのDJミックスを体験できると私は考えています。これをもとに私はX-DJチームとして、そして個人研究において、DJとオーディエンス間で音を介したインタラクションの可視化と、新しいDJパフォーマンス形式の提案を行いました。

今期取り組んだ課題

今学期、私が取り組んだ課題は、先ほど研究背景でも説明した、
新型コロナウイルスの影響で、普及しているDJのライブストリーミングでは、オーディエンスの嗜好を汲み取った、パフォーマンスを行うことが難しいといった課題を前提としました。オーディエンスの嗜好とは、
主に好きな音楽ジャンルやリズム、そして楽器(電子音を含む)を示します。基本的に、クラブ現場のDJはこの嗜好情報を、オーディエンスの身体的な動き歓声から判断し、次にかける楽曲の参考にすることが多い、と私は考えています。サカチュワン大学のGatesらの研究においても

DJはプレイ中オーディエンスの体の動きやうねりに着目した“視覚”の情報を基に選曲しミックス作業をすることが示された

とされています。これをもとに、今学期の研究では、春学期に取り組んだVariable Flavor Remixをライブストリーミングに向けて改良しました。音源分離やループ抽出の技術に関して、今回のMediumではあまり触れる予定がないので、よろしければ2021春学期の私のMediumを読んでいただけると幸いです。話を戻して、個人の研究ではライブストリーーミングなどの観点から、DJプレイ中にオーディエンスの嗜好情報が伝わりにくい状況でも、リアルタイムで楽曲推薦を行うことにより、常にオーディエンスの楽曲嗜好に寄り添ったDJパフォーマンスができるのではないか、
といった仮定をもとに、楽曲推薦機能の実装に向けた検証を行いました。

Variable Flavor Remixについて

春学期ではVariable Flavor Remix(以降VFR)を作り上げるといった段階で止まっており、具体的なアプローチをすることなく終わってしまいました。
ただ、春学期終了直後に開催された、研究室の展示会ではじめてVFRを披露させていただきました。

https://medium.com/media/aa3b7fc494a88aeee012301102a620c7/href

春学期に課題であった、音合わせの部分をCycling’74(以降Max)のtimestrech機能などを駆使しマスターテンポに合わせられるよう設計することができました。
展示会での、具体的なVFRシステム構成としては、まず初めに音楽制作にMaxを使って、展示の際に楽曲を再生するためのインターフェイスを構築しました。この構築されたインターフェイスを、トラックパット(Native Instruments MASCHINE MIKRO MK3)と連動させることで、来場者の方でも、簡単に任意のタイミングでループ音源を自由に再生できるよう設計しました。楽曲に関しては、来場者が自身で展示の際に、ビジュアライズしたモニターからQRコードを読み取ることで、Spotify内にあるお気に入りの楽曲を送るよう促し、先程のトラックパットに音源分離とループ抽出された楽曲を入力することで、自由にリミックス体験ができる場を提供しました。今回の展示での狙いは、大きく分けて２つあります。
それは

・DJが普段行うミックス作業を楽しみながら体験してもらうこと

・異なった音楽ジャンル同士のリミックスパフォーマンスに向けた挑戦

といった２つの狙いです。１つ目に関しては、繰り返しになってしまいますが、新型コロナウイルスが蔓延して以降、クラブ現場も自粛傾向にあり、このような状況下で、新規の顧客を作ることはとても厳しいと考えています。この現状を打開すべく、クラブ現場とは違った空間で、DJはどんなことをする人なのか、そして来場者それぞれの嗜好に基づいたリミックス体験をしてもらうことにより、少しでもクラブ現場の雰囲気を体感してもらい、このような状況下でもクラブ文化を知ってもらうきっかけになれば、といったことを使命に取り組みました。
２つ目についてですが、私は普段テクノといった音楽ジャンルを主としてディープミニマルからインダストリアルなどの楽曲をメインにDJをします。比較的ニッチなジャンルでDJをしているわけですが、僕自身は常にこの音楽ジャンルのかっこよさ、そして楽しさを伝えたいと日々努力しています。それはジャンルは違えど、ほとんどのDJに通ずることでしょう。
ただ、これは正直に言わなければならないことだと思いますが、
普段K-POPやポップスを聴いている方々に、僕のプレイしているようなジャンルを訴求したところで、そもそも解釈してもらうことに無理があるのでは、と考えています。ただ、理解してもらうためのステップは、必ずあると私は思います。僕自身も、テクノが好きになったきっかけは、
Joy DivisionやDepeche Modeなどのパンクやエレクトロ・ロックなどといったジャンルが好きだったといった要因からでした。
今回の展示では、自身にとって嗜好のあるジャンルの楽曲に加え、来場者によって、異なる音楽ジャンルから選ばれた楽曲を、同時にリミックスすることで、

聴き馴染みがあるけどはじめて聴く楽曲

を連続的に生成し、このリミックス体験を楽しんでもらえれば、少々押しつけにはなってしまいますが、僕の好きな音楽ジャンルを含め、世の中に溢れる、たくさんの音楽ジャンルに触れてもらうきっかけを、作ることができるのではと思い、制作活動を続けてきました。

ライブパフォーマンスデモ動画
春学期が終了してから、展示発表にてVFRを披露する運びとなったが、本来私たちが目的とする、ライブパフォーマンスに向けたリミックスシステムの提案については今学期に取り組見ました。具体的な提案内容として、パフォーマンスデモといった形で研究成果を披露しました。先ほど説明した、展示発表時の設計とは若干異なり、パフォーマンスデモに関しては、Max の代わりにステージパフォーマンスでよく用いられる DAW ソフトの、Ableton Live で扱う、セッションビューを使用しました。また、展示ではトラックパットを使用したと紹介しましたが、パフォーマンスでもでは、Ableton Push を使いました。理由としては、展示の際には最大でも４曲分の音源分離かつループ抽出された楽曲を扱う事しかできなかったのに対し、Ableton Pushを使えば、より多い数の楽曲を扱うことが可能となります。これによりライブパフォーマンスにて、複数のオーディエンスが参加し、リアルタイムにたくさんの楽曲が送られてきた場合にも対処できると考えました。さらに、 Reverb や Echo 等のエフェクトを利用することもできるため、クラブ現場でのDJパフォーマンスにより近い形で、ライブストリーミングパフォーマンスを行うための設計をしました。
今回の取り組みの中で、パフォーマンス時の音質問題が課題としてありました。これまで、私たちはSpleeterを使用し、音源分離をしていたことにより、早い処理速度によって音源分離された素材を扱っていました。
しかし、同じくディープラーニングを用いた、オープンソース音源分離ソフトウェアのopen unmixに使用を変更したことで、処理速度はSpleeterと比べ劣るが、音質が改善され、DJミックスパフォーマンスとしての質を高める結果となりました。以上により、オンラインライブ空間などで、普段は汲み取ることが難しい、オーディエンス嗜好情報を通じて、リミックスパフォーマンスすることを可能としたツールとしては、非常に有用性の高いものとなりました。以下はパフォーマンスでもとなっているので、システム構成も兼ねてご覧いただけると幸いです。

https://medium.com/media/d0c5c2c2f92d4fce19c62412655432ac/href

楽曲推薦システムの実装

ここからは、今学期に卒業プロジェクトも兼ねて行った楽曲推薦システムの実装と、それに伴う検証について話していきたいと思います。
今回は、主にVFRに向けた楽曲推薦の実装としてプロジェクトを進めました。そもそも、本プロジェクトを始めたきっかけとしては、VFRにて楽曲のループ抽出から音源分離の処理をした複数音源をリミックスする場合、オーディエンスの嗜好を楽曲情報から汲み取ることができても、DJ側からしたら、はじめて聴く曲やリミックスする曲として相応しいのかなど、瞬時に判断を求められる要求が多いように感じました。特にVFRではこのような要求に基づいて曲選びをすることは難しいと考えました。楽曲推薦システムの実装に関しては、Spotify APIを使用し、オーディエンスから送られてくる楽曲の特徴量と、ミックスをしている楽曲双方の特徴量抽出をし、類似度を算出することで、次に流すべき楽曲の推薦をすることを目的としました。また、Spotify APIで提供されている特徴量の総数としては、現時点で、14個抽出することが可能です。
その中から、今回の実装ではテンポやリズムの一定感、そしてビートの強さなどによって、算出されたdanceabilityを筆頭に、全８個の特徴量を使用しました。特徴量の抽出方法に関しては、英単語をランダムに選択し、Spotify APIより検索する機能を用いて、５曲ずつ楽曲を抽出し、それを2000回繰り返すことで、合計10,000曲入ったプレイリストを作成しました。このプレイリストから各楽曲の特徴量をSpotify APIより抽出しました。

今回扱ったSpotify APIの特徴量

次のステップとして、これまで抽出した特徴量はそれぞれ平均値と標準偏差が大きく異なることを想定し、単位ごとの値を揃える必要がありました。そこで、今回は平均値を0、標準偏差を１として特徴量を標準化する
Z-Scoreの計算手法を用いて、Spotify APIから抽出された各特徴量の値の偏りをなくしました。今回の検証における標準化の例として、10,000曲が入ったプレイリストが母集団とし、xは10,000曲の中での１つの楽曲データの特徴量(danceabilityなど)を意味します。μに関しては、1つの特徴量の中での平均値、そしてσは10,000曲の楽曲データにおける標準偏差であり、それをもとに平均値と標準偏差のばらつきを揃えるといった仕組みとなっています。

Z-Score計算式

以上の手順により、作成したプレイリストからSpotify APIの特徴量抽出によって、標準化された楽曲データを、ユークリッド距離とコサイン類似度を使用し、楽曲推薦を行うためのランキング付け作業をしました。加えて、楽曲推薦を行う上でどの特徴量を用いることが、有用であるかを検証するために、先ほど紹介した8つの特徴量を含んだ、255個の特徴量の組み合わせを作成し、その特徴量からランキング付け作業をしました。こちらのランキング付け作業に関しては、事前に私の方でランダムに曲を選び作成したプレイリストの全23曲の中から１曲を選び、それを基にユークリッド距離とコサイン類似度から、楽曲同士の類似度を検出しました。
以上により、255個の特徴量セットの中から、類似度をもってランキング付けされた楽曲と、私を含む複数人が、実際に楽曲を聴いてランキング付けしたデータと比較をし、ユークリッド距離とコサイン類似度のどちらが、楽曲推薦として有用であるかの比較と、楽曲推薦を行う際に用いるべき特徴量として、最適なものは何かといった検証を行ないました。

検証実験
これまで説明してきた手順によって、コサイン類似度とユークリッド距離の.どちらが今回の楽曲推薦において有用であるかを、アンケート調査によって、定量的に検証しました。
また、Spotify APIを用いて楽曲推薦を行う場合、255個の組み合わせの中のどの特徴量が、楽曲推薦を行う際に適切であるかといった部分の調査も行いました。
今回は以下の方法でアンケート調査をし、合計で12人の被験者に参加したいただきました。

1,まず、対象とする楽曲を聞いてもらう

2,次にプレイリスト内にある楽曲を、こちらで事前に作成したランダムの順番で聴いてもらう

3.聴いてもらった楽曲の中から、対象とする楽曲(The Avalanches — Subways)と似ていると思った楽曲を1位から5位まで選んでもらう

それ以外に以下の内容のアンケートも行いました。

・年齢

・今回聴いた曲のなかで知っている楽曲はあったか

・被験者の音楽歴

アンケートの特徴としては、被験者に対して、ランダムでプレイリスト内の楽曲を聴いてもらった点と、音楽歴によって楽曲同士が似ているか否かを判断する基準に偏りがあるのではないか、つまり選ぶ特徴量に変化があるのではないかといった仮説を立てたことがあります。ランダムで、プレイリスト内の楽曲を聴いてもらった理由としては、楽曲の評価において、ユーザーがはじめに評価した楽曲のバイアスを受けて、それ以降の評価に影響が出てしまうといった、楽曲を評価する際のバイアスをなるべく避けるといった関連研究を参照しました。
これにより、所得したアンケート結果のランキング順位が高い楽曲を、
今回の検証で、対象とした楽曲と似ている楽曲だと判断しました。
これまでの手順をもとに、ユークリッド距離とコサイン類似度によって各特徴量の観点から対象曲と似ていると判断された楽曲と、実際にアンケート調査によって人が主観的に対象曲と似ていると判断した楽曲のランキングを、MRRのランキング指標を使い評価しました。
MRR(Mean Reciprocal Rank)の計算に関してですが、コサイン類似度とユークリッド距離のそれぞれで特徴量セット毎にMRRの値を計算し、MRRの値で降順にランキングづけすれば、各類似度指標ごとに、どの特徴量セットが良い成績になったかを評価できると考えました。

MRRの公式

具体的なMRRの計算ステップは以下の通りです。

1. 類似度指標を選択(コサイン類似度 or ユークリッド距離)

2. 特徴量セットを選択し2を行う(2⁸-1 = 255通りを繰り返す)

3. 選択した類似度指標×特徴量セットが付けたランキングとユーザが付けたランキング(ベスト5を適合したと判断)により、MRRを計算する(公式内のQは今回の被験者数,つまり12人を指す)

4. MRRにより降順で順位づけをする

5.もう一つの類似度指標で2.~4.を行う

計算ステップイメージ

for 類似度 in {コサイン類似度, ユークリッド距離}:

MRRリスト=[]

for 特徴量セット in 特徴量の全組み合わせ集合:

類似度×特徴量セットのMRRを計算し、MRRリストに追加する

MRRのリストを降順に並び替える→これがこの類似度における特徴量セットの順位になる

楽曲推薦システムの検証結果

先ほど説明したアンケート調査の評価結果から、コサイン類似度とユークリッド距離に基づいた類似度指標結果の検証を行いました。

検証の結果として両方の類似度指標で１位となったのはtime_signatureつまり楽曲の拍子であることがわかりました。特に、今回私の方で事前に作成したプレイリスト内の楽曲のほとんどがSpotify APIの表記では、４拍子で構成されており、それに次いで、１拍子と３拍子少々といった結果となりました。つまり、４拍子で構成された楽曲がほとんどの中で楽曲同士が似ているか否かを判断することは、楽曲推薦として有用ではないと私は考えました。では２位以降を見た時に、コサイン類似度の2位から3位に関しては、acousticnessやenergyなど比較的楽曲内におけるピアノやギターの音の有無や、楽曲の抑揚などによって評価が左右されている傾向が見られました。また、ユークリッド距離に関しては、楽曲の踊りやすさやビートの強さを示すdanceabilityや、楽曲内に歌声がどれくらい含まれているかを表すinstrumentalnessなど、わりとはじめて聴く楽曲でも簡単に認識できる特徴量をもとに評価されていることがわかりました。

MRRを用いた各類似度指標ごとの検証結果1

MRRを用いた各類似度指標ごとの検証結果2

考察

VFRについて

これまでのDJライブストリーミングでのパフォーマンスでは、オーディエンスの嗜好情報をリアルタイムで汲み取り、楽曲選びをすることは現実的に難しいと考えていました。しかし、今回の研究によって、オーディエンスのお気に入り楽曲をそれぞれの嗜好情報とし、リアルタイムに受信することが可能にしたことで、複数のオーディエンスとDJが、別空間でも音を介して関わり合えるようなパフォーマンスの、実現に向けて取り組むことができました。今回の研究ではSpotify APIを用いたことで、オーディエンスにとって嗜好のある楽曲を、DJが瞬時に扱えるよう整形して利用できるといった点では、ライブストリーミングに限らず、DJパフォーマンスにおいて非常に独自性のあるシステムを制作することができたと考えています。また、これまでのDJライブパフォーマンスではミックスの一方通行性が問われ、DJやクラブ文化の入り口としては大きな難点があると考えていました。そこで、本研究ではオーディエンスの嗜好を汲み取りつつDJパフォーマンスを行える設計にしたことから、ある種のクラブ文化の普及に向けたアプローチができたのではないかと私は望んでいます。

楽曲推薦について

今回私制作したVFRでは、ライブストリーミングでのパフォーマンスを主として、様々な人の音楽的嗜好を汲み取ったリミックスパフォーマンスを想定していることを伝えてきました。その点で言えば、対象楽曲を類似していると判断するときに重要視していた拍子、つまりtime_signatureを楽曲推薦の軸とすることは検証結果として先決です。しかし、今回の検証では、Spotify APIの特徴量に関して、time_signatureの特徴量数値は4拍子、つまり4と表記されている楽曲が大半を占めていました。
これにより、今回の検証では拍子によって楽曲的特徴の差異を抽出し、楽曲推薦に活かすことは、あまり有用でないと考えます。私が展示発表でVFRのを展示する際の狙いとして話した、異なった音楽ジャンル同士のリミックスパフォーマンスに向けた挑戦をするためには、danceability,acousticnessやenergy,そしてinstrumentalnessのように、ジャンルに限らず楽曲内の音色や歌声の有無、楽器音によって判断される特徴量を用いることが今回の検証では有用なのではないかと考えました。
つまり、類似度を検証する際に用いた、コサイン類似度とユークリッド距離の検証については、先ほど推奨した特徴量傾向から、今回の検証で言えばユークリッド距離が有用であるとしました。これまで、楽曲推薦では主に、コサイン類似度を用いて楽曲の類似度を抽出するケースが多いとされています。吉井和佳(産業技術研究所)らが、音楽推薦システムの研究と今後の指針についてまとめた論文においても、楽曲の類似度における尺度として、コサイン類似度がよく利用されることが示されていました。
このことから、今回の検証だけではそもそも募った被験者の人数が少ないことと、time_signatureなど根本的な楽曲の特徴量に偏りがあったことなどの結果からして、コサイン類似度とユークリッド距離のどちらが楽曲推薦として有用であるかを、今回の検証で確実に断言はできませんでした。

終わりに

まず、VFRについては春学期からプロジェクトリーダーを務めつつ、
DJとして活発的に活動できない現状を、常に照らし合わせながら作り上げた作品として、日本のDJ文化の発展が滞っている現状の打開策として、非常に有意義なものになったと断言したいです。まだ、実際にパフォーマンスを行えていない点などから、これからも改良すべきところなどはたくさんあるかと思いますし、Spotify APIを利用したことによる著作権的な問題の観点からしても課題はあります。しかし、この状況下で精力的にDJ文化を訴求できるライブストリーミングのプラットフォームのあり方を、これまでのDJ活動の経験や、チームメンバーの音楽制作意欲などの観点から話し合い、新たなパフォーマンス形式を提案できた結果に意義を感じています。ただ、日本社会の構造として、特にDJなどのアーティスト活動が保証されない現状と、新型コロナウイルスによる緊急事態宣言により、営業自体の短縮や自粛を強いられるといった観点から、営利目的で運営をしているクラブ現場で、僕のような学生一個人が何かを変えることは現実的に難しいです。これをもとに、私はこれまでクラブ現場で、若手のアーティストに向けた支援活動の一環としてイベントの運営を行ってきました。学内外、両方の側面でDJとして、そしてクラブを支えたいといった思いで活動できたことは、何にも変え難い事実であるし、この状況下でもアーティストとしての活動を志すDJや芸術活動を行っている若い世代の人たちに、大きな原体験を与えることができたと思います。
だからこそ、研究会での最終発表は今までにないほどの、悔しさを味わいました。特に個人の卒業プロジェクト発表に関して、今回の検証結果からして、楽曲推薦機能を用いることが、果たしてDJにとって有用であるのかなど諸々突っ込まれた時に、言葉が出て来ず、これまで自分は、

DJのことをわかった気

になっていたのだということに気づきました。今でも言語化することが難しいですが、卒業プロジェクトという枠組みにこだわるあまり、ある種の自主性のようなものが損なわれ、問題提起を掲げて検証を行い、考察をして終わり、といった形式に剃っているだけの研究になっていることに気づきました。もちろん努力をした結果ではありますが、他の人よりもDJ活動をして、ある意味いい環境でやらせてもらっている分、その現状に満足するあまり、それ以上に自己と向き合うことをしなかった結果であると反省しています。要するに、他人よりもDJに関して知見がある自分や活動をしている自分に満足してしまい、表面的な問題を掲げるだけで、その問題の根本を考えることをしなかったのだと、振り返るだけでなんとも自責の想いです。僕は4月から修士研究に取り組む予定ですが、今回の卒業プロジェクトでは他者、つまりSpotify APIの特徴量を扱って検証をした事実や、検証結果の考察が甘かったことに向き合い、修士研究では自分で音響的な特徴を抽出したり、自分が掲げたコンセプトに対する問いかけを自主的に行ったりと、より自分に向き合った研究をしていきたいです。その上で、今を生きるDJとして本当に必要なもの、そしてあるべき姿を突き詰めていきます。実際には、今の状況からして、クラブ現場内のDJに向けたサポートツールを作るよりも、自身がDJつまりアーティストとしてフックアップされていくことの方が、日本のクラブ文化を盛り上げる面で言えば重要な気がしています。なので来期からは修士研究をやらせていただく予定ですが、もう少し自身がDJとして、そしてアーティストとして勝負していくための作品作りに注力しつつ、研究活動を続けられたらと思います。
最後に、これまで学部生活で僕に関わってきてくれた皆さん、そして手を差し伸べてくれた方々、本当にありがとうございました。
今期できたこと、できなかったこと、そして卒業間近に経験した挫折というか悔しさのようなものを跳ね返すべく、DJとして修士研究に臨みます。

[CC Lab21秋]Variable Flavor Remixの可能性と楽曲推薦機能の検証について was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CCLab 21秋] 音楽生成モデルの動向と楽曲体験デザインへの応用可能性について

Atsuya Kobayashi — Mon, 07 Feb 2022 15:13:31 GMT

シンボリック音楽生成モデルの動向

深層学習モデルを用いたシンボリック音楽生成は近年様々な手法が検討されておりGAN (MidiNet等) やRNN, VAEを組み合わせたもの (PerformanceRNN, MusicVAE等) が提案されている。その中でも、2018年にGoogle Magentaが発表したMusic Transformerではそれまでのモデルと比較しより長期的な依存関係を表現することができるようになり、その後はTransformerをベースとした様々な音楽関連のタスクを解くモデルが提案されている。

まず機械学習を用いてシンボリックな音楽情報を扱うには、大きく分けて2つの手法がある。一つは深層学習モデルで扱うためのマトリクス表現に変換する方法で、MIDIのピアノロールを画像として扱うのに近い。扱える音階、音量を16分音符等に設定された各グリッド上に配置したものを予測する。

MidiNet論文より引用 h=128, w=16などの行列表現になっている

一方はMIDIの各イベントを単一のシーケンスとして扱うためにnote onやnote off、time shift (miliseconds) 等のイベントすべてをone-hot encodingし，各イベントを系列として扱う手法である。マトリックス表現にする時と比べデータが疎になりにくく（例えば4拍の休符があった場合16分音符のステップでは16このデータがゼロとなるがRestトークンがあればより少ないデータ数で表現できる），言語モデルのように系列としてデータを扱うことで学習を可能にしている。

このMIDIデータをトークナイズする手法も様々提案されている。例えばMusic TransformerやPerformanceRNNで用いられている表現のMIDI like representationでは，Pitch情報を持ったNote-OnとNote-Off，Time-Shift (ms) とVelocity (音量) がそれぞれトークンとして順番に羅列している。

上記の楽譜をMIDI Like Representationでエンコードしたトークン表現はこのようになる (MidiTok リポジトリより引用)

その後 Pop Music Transformerで提案されたREMIでは，各トークンを小節ごとにまとめるために Barトークンを採用し，Time-deltaを廃止し各小節の頭から何グリッド目かというPositionトークンと，音符の持続時間を表現するDurationトークンで時間情報を扱っている。また、PopMAG: Pop Music Accompaniment Generationで用いられているMuMIDIという手法では、マルチトラックに対応するために楽器の種類を表すTrackトークンやChordトークンが採用されており，ドラムのピッチとその他の楽器のピッチ情報は別々のものとして扱われている。またモデルの内部では時系列を扱うBarやPositionと，音符をあつかうPitch，VelocityとDurationは別々の空間へと埋め込まれている。これらのエンコーディング手法をまとめたオープンソースのトークナイザライブラリMidiTokが実装され、昨年のISMIR2021で発表されている (MIDITOK: A PYTHON PACKAGE FOR MIDI FILE TOKENIZATION)。

さらに，Mutitrack Music Machineでは、MIDIで扱える全ての楽器を指定した生成が可能である。

https://medium.com/media/0ed5b8ef4972938eaaa577866c21f363/href

内部的にはGPT-2が用いられており，生成時にはトラック開始と楽器を指定するトークンまでをプライミングとして入力することで、その続きを予測する形で任意の楽器でのメロディ/伴奏/リズム生成を行うことができる。さらに Densityトークンによって，音価の密度＝どれくらいの音数にするかまでコントロールができるようになっている。

また、先日のACM Multi Media 2021のbest paperであったVideo Background Music Generation with Controllable Music Transformerでは映像データからBGMを生成しているが、その際にジャンルを指定して生成することが可能になっている。

Demo 1 of Controllable Music Transformer_哔哩哔哩_bilibili

このように、Transformerベースの生成を行うシンボリック音楽生成のモデルは単なる表現力のみならずコントロール可能な域まで達しており、様々な応用方法が考えられる。

応用方法として

まず第一にそれらの音楽生成モデルの応用先として考えられるのは作曲支援であろう。実際にAIによる作曲を謳ったソフトウェアやツールは様々なところがリリースしており、Google MagentaもMagenta StudioというAbleton Live向けツールを配布提供している。ヒトの創造性を拡張するという観点から，作曲支援ツールのインターフェースに関する研究も様々なアプローチでなされており，いかに解りやすいコントロールをさせるか，いかにユーザーであるミュージシャンに使ってもらうかという挑戦がなされている。

一方で，より豊かな音楽聴取のためのデータ活用というと，一般的には楽曲のレコメンデーション手法などに着眼点が置かれたものが多い印象があり、近年の高い表現力を持ったモデルを用いた自律的かつ実時間的な作曲によって新たな音楽体験を提供しようという試みは少ないのではないか。

例えば，上記の自律的な音楽生成モデルは今までにあった楽曲の前半部分を入力することで、既存のものとは異なる後半部分を生成することができる。ユーザーが知っている曲に似てるけど知らない曲を提供するというのは、ミュージシャンにしかなせない芸であるが、楽曲の特徴をうまく掴んだモデルなら可能であり、新しい音楽作品の形として、前半部分は固定だが後半部分は”人工知能によるインプロビゼーション”であり聴くたびに様子が異なる楽曲があっても面白い。また、既存の楽曲に対して似た曲をマッシュアップするのではなく、その場で似た曲を生成してマッシュアップしAI-Remixを作成するなどの楽しみ方もある。

徳井研究室x-music-generationチームでは、この新たな音楽聴取体験を生むための生成モデルの応用としてMixed Reality環境での音樂生成インスタレーションを制作した。

Mixed Reality環境でのメロディ体験インスタレーション

近年のAR/VRデバイスの普及にともなって，音楽体験のフィールドも拡張されている。拡張現実区間での音楽体験のデザインは Musical XR (Extended Reality)とされ，例えばMRデバイスで任意の位置に音源を配置して楽曲をサラウンドで楽しむシステムなどが提案されている。

今回私達は，ユーザーが身の回りにある実際の物体（壁や机など）と，身の回りに浮かぶバーチャルな物体をぶつけた時に生じる音から機械学習モデルでメロディをリアルタイムで作曲し，それを楽しむという体験をデザインした。

体験の様子 (a)の視界が(b)であり，(c)の視界が(d)である

ユーザーはMicrosoftのHoloLensを身に着け，自身の手によって周りに浮かんでいる球や立方体をたたいたりつまんで引っ張ったりすることができるようになっている。さわられた物体は飛んでいったり落ちたりして弾んだり跳ね返ったりするが，その時の音に続くようなメロディが生成されている。

https://medium.com/media/c338e0ea96e5c4bc4d66f925786e6d4d/href

おわりに

音楽生成モデルの発展にともない，作曲段階にも音楽聴取段階にもどちらにも応用し，新たな音楽体験，新たなエンターテインメントの形をつくりだすことができるのではないかと考えている。いつか人工知能とセッションをしたり，人工知能から音楽制作のアプローチを教わったりするようなインタラクションも設計されうるし，聴くたびに少しずつアレンジが替わるようなライブ感をもった今までにない音楽の聴き方もデザインされうるであろう。私個人としては引き続き生成手法のサーベイと実験，作品の製作を通して，そのような世界に近づけていくための貢献ができれば幸いである。

[CCLab 21秋] 音楽生成モデルの動向と楽曲体験デザインへの応用可能性について was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

[CCLab21秋] Text2TextでText2Tasteをする意義を模索する

Keisuke O — Mon, 07 Feb 2022 14:45:32 GMT

※ Computational Creativity Lab(慶應義塾大学徳井直生研究室)の2021年度秋学期最終レポートとして、今学期の成果をまとめています。

取り組みの概要

私は現在、レシピ文章から新しいレシピ文章を生成する取り組みを行っています。

本研究では、国立情報学研究所のIDRデータセット提供サービスによりクックパッド株式会社から提供を受けた「クックパッドデータセット」を利用しております。cookpadは料理レシピのコミュニティウェブサイトです。データセットにはレシピの材料や調理手順、料理カテゴリに加えて、料理を作ったユーザのコメントの情報、が含まれています。

クックパッドのデータセットを元に、自然言語処理を用いた新しいレシピの生成を試しています。

機械と味

そもそも、機械と味の関わりは直感的に捉えられるものではないでしょう。しかし現在、食のIT革命と言われる「フードテック」が注目される中で、機械と味の結びつきは味をセンサーで数値化する研究など様々な形で起きています。

機械学習を用いたレシピに関するアプローチも多く存在しています。料理画像からレシピを提供するAI(image2recipe)、料理画像から材料を推定するAI(image2ingredients)、手元の材料から最適なレシピを提案してくれるAI、材料同士の組み合わせを提案するAI、…etc

https://medium.com/media/cbef6e8e660e175c58d610104e5ae7b4/href https://medium.com/media/50f9f0295cc4b96fe53f2d594cb83d7f/href

テキストからレシピを生成するという私の取り組む問題についても、Googleによる取り組みがなされています。

https://medium.com/media/3d1474b165e8594345900ccef70ef73b/href

取り組みの結果

そんな中で今学期は、冒頭でも紹介したcookpadのレシピデータの中の”料理カテゴリ”に着目して、カレーレシピの生成を行いました。T5(Text-To-Text Transfer Transformer)を用いた日本語事前学習済みモデルを転移学習させており、タイトルからレシピ本文を生成しています。

味を文字を介して間接的にしか学習できない機械と、その中で発せられるユニークな材料の組み合わせから人間が調理過程で工夫して新しいレシピを開発することを目的としています。

まず、“カレー”のカテゴリがついたレシピ1415件をデータベースから抽出しました。同じカレーとは言っても日本の家庭で一般的に食べられているようなカレーのレシピから、エスニックなカレーのレシピ、また、使用する肉の種類や、スープ状、ドライなのかといった分類を含めて、10の分類がカレーカテゴリ内に内包されています。

結果として以下の通りの出力になっています。

【絶品カレー】

大きめの鍋にサラダ油を入れ、しょうが・にんにくを炒め、香りが出たら玉ねぎを加え、しんなりするまで炒める。(中火)ひき肉を加え、色が変わったらカレー粉を加え、塩コショウをする。水とコンソメを入れて煮込み、アクが出れば取り除く。ケチャップ・ソースを加えて味を整える。ご飯と一緒にどうぞ。

オーソドックスな家庭のカレーのレシピが生成されます。

【エスニックカレー】

材料を準備します。にんにくとしょうがはすりおろします、玉ねぎもすりおろします(油は引かない)オリーブオイルを熱しニンニク・しょうがを入れ香りを出します。たまねぎを加えしんなりするまで炒めます水2カップを加えて強火で沸騰させます。アクが出たらとる程度に煮込みます。カレールーを加え溶かしたら弱火にしてナンプラーを加えます。味を見て塩加減を調整して出来上がり。お好みで粉チーズをかけてくださいませ^^

タイのカレーとして学習された要素(ナンプラー)が使われるようになっています。

【コンソメスープ】

まず初めにコンソメスープを作ります。(コンソメスープは煮込み用です)次に具材を切ります、にんにくとしょうがのみじん切りを炒めます。そこにコンソメスープとカレー粉を入れます。全体に油が回ったらコンソメスープの素を入れます。少し煮込んだら仕上げにバターを入れて完成です。ご飯と一緒にどうぞ!

タイトルとして学習されていない、かつ、レシピ中に出てくるワードをタイトルに用いる。学習にカレーのレシピしか用いていないために、カレーのレシピとして出力されている。

以上、カレーだけのデータで学習させたところ、料理の具材としてバリエーションが出なかったために、同データの中から”まぜご飯”421件、”リゾット”298件のデータを加えて再度学習、生成を行いました。

【鶏肉と白菜のカレー】

【下準備】鶏肉は一口大に、白菜と胡麻は粗みじん切りにする。フライパンを熱し、サラダ油をひいて鶏肉を炒める。鶏肉の色が変わったら玉葱を加え、しんなりするまでしっかり炒める。2「カレー鍋」に水・白菜・ローリエを入れ、煮立ったら弱火にして蓋をして15分煮込む。その後ルーを入れて溶かし、再び弱火で10分煮込んだら完成。

鶏肉と白菜の処理に加えて、鍋に投入するところまでがレシピとして記載されている。

【ひじきのカレー】

パターン1

オクラの塩茹で汁とカレー粉を鍋に入れて火にかけ、ひじきも加えて炒める。水を加えて煮立たせ、ローリエとセロリを加えてひと煮立ちさせる( そのままでもおいしい)。カレールーを加え、少しづつ味を足しながら煮詰める。好みのとろ加減になるまでじっくり煮込んで出来上がり。

パターン2

ひじきは水で戻しておき、玉ねぎは粗みじん切りにする。鍋にサラダ油とにんにくのみじん切りを入れ、弱火で炒める。香りがしてきたらたまねぎを入れてしんなりするまで炒め、カレー粉を加えてさらに炒める。カレー粉の濃度が変わってきたら、豚ひき肉を加え、色が変わるまで炒める。トマト缶を加え、煮立てて完成♪

同じタイトルでも異なるレシピが生成される。精度が高くデータ内のレシピ文に生成結果が混じっている可能性も考えたが、ひじきを使ったカレーレシピはデータには含まれていない。

【生姜とゴボウのカレー】

生姜、玉ねぎはみじん切りにする。ゴボウも一口大の大きさに切る。鍋に油を熱し、1の材料を炒める。2に生姜、ゴボウ、水を加え、煮立ったら弱火にして蓋をして10分煮込む。一度火を止め、カレールーを入れ溶かし、再び弱火で10分煮込む。仕上げにガラムマサラを振り入れて完成!

以上の通り、具材名をタイトルに含む生成は、カレーのレシピとしても、材料の処理としても不自然ではない生成がなされる。

【和風カレー】

じゃがいも、にんじんは皮をむき2センチ角に切る。しめじは石づきをとり、ほぐす。鍋にサラダ油を熱し、豚ひき肉の色が白くなるまで炒める。じゃがいもとにんじんを加え、軽く炒めたら水を入れ、煮立ったらアクを取りながら煮込む。じゃがいも以外の材料が柔らかくなったら、カレールウを加える。ルウが溶けたら弱火にして、10分ほど煮込んで出来上がり♪

【イタリア風カレー】

玉ねぎをみじん切りにして、オリーブオイルで炒める。しんなりしたらトマト缶を加えて、煮立たせる。1に水500mlとブイヨンペーストを入れて、沸騰したら弱火にして20分煮込む。2の煮込み時間30分ほど置いて、ルーを溶かしてから再度煮込む。出来上がり30分後…。冷蔵庫から出したてのご飯にかけ、パセリを振ったら、出来上がり♪お好みで、ゆで卵を乗っけてもよさそうです(笑)

フィーリングの入力でもそれなりの出力が得られる。

カレーというジャンルに絞ること、また、タイトルという少ない制約からの出力になることで、レシピの文章としてはそれなりに美味しいレシピの出力がなされた。

反省・これから

今回は料理カテゴリ区分を意識した生成を行いましたが、先学期扱ったつくれぽの評価はコミュニティアプリのデータならではのユニークなデータだったと感じました。カテゴリという客観的なデータと、つくれぽという主観的なデータの両者を含めたレシピ生成の手法を模索しようと思いました。

実際に、カレーを作っての反省が以下になります。生成したカレーただただ美味しい。というのも、レシピに制約が少ないため、あまりにも人為的な操作が加えられすぎるからです。

材料の分量については、データの表記が例えば漢字ひらがなで異なっていたり、記号が加えられていたり、カッコつきの補足説明がされていたりする為に、正規化の難度が高く、材料を避けてレシピ本文の生成を進めていました。実際、生成に使ったレシピ本文についても、レシピとは合い入れない文章もまだ含まれていますが、生成には幸い影響を及ぼしていないだけになっている。春休みは、材料表記の正規化と、材料のデータをどう学習に組み込むのかを中心に調査していきたいと思います。また個人的な興味によるところも大きいですが、XAI(説明可能なAI)についても学んでいきたいと思っています。

今年の4月から自炊は生成したレシピのみで行っていきます。実際自分でレシピを作る、料理を作る、食べる中で自身の研究の知見を深めていこうと思います。また、ブラックボックスとしてそのままにしている部分が未だ多くあります。来年、卒業論文としてふさわしい成果を出せるように、生成結果とのにらめっこだけではなく、真摯に技術に向き合いながら制作を行っていきたいと思います。

[CCLab21秋] Text2TextでText2Tasteをする意義を模索する was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

本記事は慶應義塾大学徳井研究室 — CCLabの2021秋学期の活動報告も兼ねたものとなっています。

髙梨大 — Mon, 07 Feb 2022 13:49:19 GMT

[CCLab21秋]機械学習を用いた作品制作を通して

本記事は慶應義塾大学徳井研究室 — CCLabの2021秋学期の活動報告も兼ねたものとなっています。

はじめに
x-dj
個人
最後に
はじめに

慶應義塾大学環境情報学部2年の髙梨大です。

私は今学期（2021年度秋学期）からCCLabに所属し、機械学習やそれを伴う作品制作に携わってきました。チームではx-djチームに所属し、「Variable Flavor Remix」のアップデートや学会へのアプローチ等を行いました。個人では、興味のあった機械学習による楽曲の自動生成を行う傍らで、自然言語処理に興味を持ち始め、自然言語処理を100本ノックをやって勉強したり、対話文生成の作品作りを通して多くのことを学びました。

以下で、そのことについて詳しく話そうと思います。

2. x-dj

今学期、私はx-djチームに加わり、「Variable Flavor Remix」のアップデート等に加わりました。「Variable Flavor Remix」（VFR）とはspotify apiを通して観客（オーディエンス）のspotifyからお気に入りの楽曲を取得し、それをその場で即興でリミックスする作品です。今学期のx-djチームは9月の展示に向け実装されたVRFをパフォーマンス用に作り替え、学会へのアプローチを進めるという方針になりました。

より詳しく説明すると、展示のVFRでは来場者がspotifyを通して楽曲をシステムに送信し、送信された音源からループ音源を抽出します。その後に取得した音源のループを機械学習の音源分離により、Bass、Drums、Vocals、Otherに分離し、各トラックが4×4のトラックパッドに割り当てられます。展示ではそれを来場者が自由に操作できる体験型の作品となっていました。

秋学期からはライブパフォーマンスに向けてアップデートが行われ、具体的には4×4のトラックパッドではなく、8×8のAbleton Pushを使う方向性となりました。展示の際に、懸念点としてあがった楽曲のキーが異なることによる不協和音感を解消するために、キーによる分類もアップデート要素として加えられました。私は主にキーによる分類を行う処理などを実装を行いました。

展示時のVFR

アップデートを加えライブパフォーマンス用となったVFR

学会へのアプローチとしては、今学期x-djチームはSFCの研究奨励制度であるエキセントリックリサーチと情報処理学会に提出を行いました。結果としては、エキセントリックリサーチは不採択となってしまったものの、情報処理学会は採択される結果となりました。今学期プロジェクトに参加した私は背景やシステム設計の部分で書けることはなかったので調査やサーベイの部分を担当し、執筆を行いました。まだ、3月にNIMEのデモにも提出を行いたいと考えているので、アップデートや英訳等をこれから行っていく予定です。

3. 個人

個人発表の「やってみた」では、今学期行った音楽生成と自然言語処理の勉強成果の2つの成果発表を行いました。

周囲の影響（同期の二人など）を受け、危機感を感じた私はエキセントリックリサーチに自分の作品を提出しようと考え、11月ごろに音楽生成に関する作品づくりを始めました。普段私は、ストレスや葛藤などが自分の中にあると、それをピアノなどの音楽を通して発散しているなと感じ、それを簡単に体験できるような作品を作りたいなと思い、制作を始めました。具体的には、ユーザーが叫んだ叫び声を録音し、解析を行い、得られた振幅と周波数のパラメータから楽曲をの自動生成を行うウェブアプリケーションの制作を行いました。叫び声の解析はFFT解析を用いて、自動生成は三層のLSTMを用いました。作品制作を終え、パラメータの数が少ない点や各パラメータが楽曲生成にどのような影響を与えるか（曲の長さやテンポ）を私が恣意的に決めてしまっている点などが懸念点だなと感じました。そう言った懸念点やそもそも叫ぶのが「ハードルが高い」、「叫ぶ必要性」などのご指摘もあってエキセントリックリサーチは不採択という結果になりました。懸念点は他にもありましたが、作りたいものを機械学習を通して実装までできたのはとても良い経験でした。

エキセントリックリサーチで提出したスライド

https://medium.com/media/856b74742a9a87c8b3a340cef2ad3368/href

先ほどの音楽生成などを勉強する傍らである自然言語処理に興味を持ち、日常の些細な面倒を解決できるようなものを作ろうと思い、自然言語処理の勉強を始めました。自然言語処理に興味を持った理由はもう一つ所属している古谷研究会でロジスティック回帰を用いたtweetのpositive、negativeの二値分類を行い面白いなと感じたことがきっかけです。そこから自然言語処理100本ノックや文章の生成モデルをいくつか試し（マルコフ連鎖やLSTMなど）、発表用の成果物制作を始めました。成果物としては、LINEの自動返信botを作ることにしました。「りんな」や「Air Friend」などかなり高品質の対話をできる既存のbotは複数存在するものの、個人にフォーカスし一個人の文章だけを学習させたモデルは存在していないなと考え、自分の文章を学習させ、自分の文体で返信を行える作品制作を始めました。始めた当初は「Neural Conversational Model」という割と新しいモデルを用いて対話文の生成を行いたいと考えていたのですが、大元となっている「seq2seq」というモデルとの違いがわからず、結局「seq2seq」で実装を行いました。「seq2seq」とは翻訳の分野などで活躍している自然言語処理のモデルです。「seq2seq」はエンコーダとデコーダというものから構成されていて、エンコーダでは入力系列の各要素を処理し、「文脈」と呼ばれるベクトルにコンパイルします。その後、デコーダは出力系列の各要素を次々と生成していきます。学習時にはモデルは文脈を考慮した上で正しいシーケンスの交差エントロピーを最大化するように学習されるため、文脈を考慮した文章が生成されるモデルとなっています。実装した結果の反省点としては、文章のスクレイピングが大分雑に行なっていた点や、他により良いモデルがないのかサーベイを突き詰められなかった点です。今後はそれを意識し、作品制作をおこなっていきたいと思いました。

seq2seq (Sequence to Sequence) Ilya Sutskever, Oriol Vinyals, Quoc V. Le Google

seq2seqを簡略化した図

seq2seqを対話モデルに応用すると

4. 最後に

今学期、特に個人の作品制作などで痛感したのは自分のサーベイ不足でした。あまり、考えずにプロトタイプを作ろうとすることで、作品の質を圧倒的に下げてしまうのがすごく勿体無いように感じました。来学期以降はきちんと調べ、それを常に可視化して整理しながらコンセプトやシステム設計等を行いたいと思っています。

本記事は慶應義塾大学徳井研究室 — CCLabの2021秋学期の活動報告も兼ねたものとなっています。 was originally published in Computational Creativity Lab at Keio SFC on Medium, where people are continuing the conversation by highlighting and responding to this story.

Computational Creativity Lab at Keio SFC - Medium

How AI connects art, music, color and emotion

[CC Lab 22 Fall] Odd-time signature project(on-going)

[CC LAB 22秋] 取り組んだこと

[CCLab 21秋]If you want to conquer fear, don’t sit and think about it. Stand up and mix the music.

CCLab Exhibition 2021

Adaptive Yantra~Yaoyorozu~

Variable Flavor Remix

今学期行ったこと

今後の予定

[CC Lab 22秋]2022年度活動報告

1, 初めに

2, 絵画からの音楽生成

3, AIと意識

4, 終わりに

5, 参考文献一覧

[CCLab 21秋]2021年度秋学期：石井飛鳥の活動報告

概要

慶應義塾大学 SFC 徳井直生研究室（Computational Creativity Labについて）

今期の活動について

作品制作1: Daily Report

作品制作2: Noise Sculpture

作品制作3: Compressed ideographs -visualized- 2nd edition

展示1: Alternative Dimension

展示2: TUB第12回企画展「Visible x Invisible ──ビッグデータと次世代の情報表現」

展示3: やまなしメディア芸術アワード 受賞作品展

デモ実装: デジタル空間の終活 - 文体ベクトルと NFT で「自分らしさ」を遺す -

サーベイ・学習1: Paper Survey

サーベイ・学習2: Art Survey

来期以降に向けた反省と展望

[CC Lab21秋]Variable Flavor Remixの可能性と楽曲推薦機能の検証について

はじめに

研究背景

今期取り組んだ課題

Variable Flavor Remixについて

楽曲推薦システムの実装

楽曲推薦システムの検証結果

考察

終わりに

[CCLab 21秋] 音楽生成モデルの動向と楽曲体験デザインへの応用可能性について

シンボリック音楽生成モデルの動向

応用方法として

Mixed Reality環境でのメロディ体験インスタレーション

おわりに

[CCLab21秋] Text2TextでText2Tasteをする意義を模索する

取り組みの概要

機械と味

取り組みの結果

反省・これから

本記事は慶應義塾大学徳井研究室 — CCLabの2021秋学期の活動報告も兼ねたものとなっています。

[CCLab21秋]機械学習を用いた作品制作を通して

展示3: やまなしメディア芸術アワード受賞作品展