[CCLab 21秋]2021年度秋学期:石井飛鳥の活動報告

Asuka Ishii
Computational Creativity Lab at Keio SFC
32 min readFeb 12, 2022

Asuka Ishii (Keio University Faculty of Policy Management B2)

概要

この記事は、慶應SFC 徳井直生研究会(Computational Creativity Lab)における著者石井の21年度秋学期の活動を記録している。以下では、今期の活動を「作品制作」「展示」「デモ実装」「サーベイ・学習」の3パートに分けて振り返る。最後に、今期の反省と展望を述べる。(このレポートは、慶應SFC 徳井研究室 21年度秋学期最終課題を兼ねています。共同研究については秘密保持のため省略しています。)

慶應義塾大学 SFC 徳井直生研究室(Computational Creativity Labについて)

私が所属している徳井直生研究室では、AI(人工知能)を単なるツールとして捉えるのではなく、人の創造性を拡張する道具、そして創造性の本質を写し出す鏡として捉え、AIの技術的研究及びメディア芸術作品の制作を行い、新たな創造性の構築を目指している。研究室ではメディアやテーマ別にいくつかのチームに別れて議論と研究を行っている。私が所属するx-visualチームでは、AIと視覚芸術の関係に主軸を置き研究を行っている。

今期の活動について

作品制作1: Daily Report

Daily Report

Daily Reportは、ブログサイトnoteに「#日記」タグを付けて投稿された記事を大量に学習したAIと、作者が2年半以上に書き続けている日記を学習したAIが、存在しない架空の日記を生成していく作品だ。この作品は、21春学期から制作を開始し、9月に行われた徳井直生研究会による展示会 ”Alternative Dimension”に出展した。以下に、コンセプトを示す。

人間は生まれながらにして唯一無二の存在であり、必然的に個性を持っている。それはたとえ、赤ちゃんであっても同様だ。高い知能のある振る舞いが見られなくとも、コミュニケーションが難しいとしても、彼らはその容姿や単純な振る舞いから独立した個であることが確認できる。個性があったとしても知性があるとは限らないが、いずれにせよ人間が「人間」と認識してきた生物には少なからず個性が発現している。 一方、人工知能は「生物、特に人間の知能を人工物、特に計算機(コンピュータ)によって模倣しようとする試み」である。これらの試みは、人間の知能を模倣することを目的としておりそこに個性が感じられるとは限らない。例えば機械翻訳に特化したAIモデルは、人間と遜色のつかない精度の翻訳を行うことが可能になってきつつある。しかし、その出力に個性を感じることはできない。特に、人工知能の中でも近年多用される機械学習は大量の学習データを要するため、データセットとなった文章を書いた作者の文体の癖や画像データの傾向はデータが多ければ多いほど薄まる。 人工知能が目指す先に個性があるとは限らないが、工夫次第では個性を与えることも可能だ。初音ミクは、その母体となる音声合成エンジンの vocaloid 単体ではただ与えられた入力を人間のような声で返す機械である。しかし、機械に対して初音ミクという名前と2次元の容姿をキャラクタライズすることにより「個性」を獲得した。また、日本マイクロソフトが開発した人工知能「りんな」は、モデルの設計段階から会話応答のキャラクタライズのためにさまざまなアルゴリズムを用いており、リアルな女子高生感が反映された会話を可能にした。人間は生まれながらに個性を持ってしまうのに対し、人工知能は知性の獲得と個性の獲得が分離可能だ。そして、機械に対して我々が「人間らしさ」を感じる瞬間は、その知性ではなくやはり個性である。

私たちは、知性ではなく個性に人間らしさを感じる。Daily Reportはこの仮定を鑑賞者自身が検証する作品だ。この作品では、ブログサイトであるnoteに「# 日記」タグをつけて投稿されている記事および作者の友人 4 人が書いた日記を学習したAIと、作者が約3年にわたり書き続けている日記を学習したAIが日報の著者となり、存在しない架空の日記を LINEアカウントに投稿する。ここで作者の日記を学習したAIは、文体や話題といった作者の個性を色濃く学習している。一方noteを学習したAI は、話題の一貫性や文体の癖が存在せず日々変化していく。鑑賞者は2 つのAI(著者)のうち、どちらが個人を学習したのか、もしくは膨大な数のnoteを学習したAIなのか、区別がつかない状態で日報を受け取る。鑑賞者はLINE公式アカウントを友達追加し、日々届く日記を読んでいくことで著者の区別を試みる。

生成された日報の著者は全て人間ではないことは、その文章生成精度の低さから自明である。本来機械学習モデルは大量のデータを利用しなければ精度の高い出力はできないため、2つがAIの学習した日記は文法的な自然さ、つまり知性の模倣が可能となる文章量には程遠い。しかし上述した仮定が正しければ、作者の日報を学習したAIが生成する日報に表れる個性に対して強い人間らしさを感じることができる。一方、note を学習したAIが生成した日報は、一貫した個性を感じられないため読み進めるほどに人間らしさを失っていく。 人間は生まれながらにして個性を持ち合わせるため、人間を対象に上述した仮定の検証は不可能である。この作品は、知性の獲得と個性の獲得が分離可能な人工知能を用いることで、「人間らしさとは何か。」という問いに突きつけた「個性」という一つの答えに対する回答を試みる。そして人工知能が汎用化した現代そして未来の社会において、AIの知的能力を向上させるだけでなく、個性の発達が人間とAIの親和性の向上に重要であるということを示したい。

技術解説

Technical Overview

本作品の制作は、6段階の実装に段階分けされている。石井がLINEグループ上に投稿してきた日報をデータセットとして抽出する段階では、line2csvを用いてグループトークをテーブルに書き起こしたものを、昨年の特別研究プロジェクトで作成した日報分類器によって日報のみを抽出することでデータセットを作成した。その後、Japanese-BPEEncoderによってトークン化し、GPT-2 japaneseを日報データを用いてファインチューニングしている。テキストを生成する段階では、ファインチューニングで用いられたデータセットが少ないため生成される文章が似通ったものになるという問題が発生したため、Transformerブロックにおけるトークン決定時のtop-k値を原論文よりも上げることによってランダム性を確保した。こうして生成された文章を、LINE Messaging API, heroku, APSchedulerを用いてLINEのオフィシャルアカウントに自動送信している。石井の日報を学習したモデルの投稿時間は、過去に自分が日報を投稿した時間を重みつき確率分布とみなし、その分布からサンプリングすることにより決定している。このため、投稿時間は夜21時〜24時の間となることが多い。一方、noteから学習されたモデルの投稿時間は完全なランダムにすることで、2つのAIの人間性の有無を表現している。

なお、段階1の日報分類器は作戦制作後にDense層のスタッキングモデルからBERTに変更されている。また、APIの利用費の関係上現在Daily Reportは運用を停止している。

評価すべき点と反省すべき点

1: オリジナリティの担保

昨年の特別研究プロジェクトで自分が3年以上に渡って描いてきた日報を取り扱ってから、自分にしか扱えないメディウムとしての日報を作品に昇華する方法を模索してきた。本作品では、データセットのバイアスとして石井の文章に表れる個性を学習させることにより、自分ならではの表現を達成。石井を学習したAIから生成される文章は、どの文章も確かに自分が書いていそうではあるが思いつかないような話題を提示している。「AIを鏡として見る」行為の中で、反射させる物体を自分自身とすることにより客観的に自らの思考を観察することができた。

(追記)一方、フィードバック−つまり生成された日報を読むことによる石井の書く日報の変化−は見られなかったように思う。鏡としてAIを扱ったからといって、その写像は自らの内に取り込み内的変化を起こしうるとは限らない。(そもそもこの作品はそういったフィードバックを起こすことを目的とはしていないため当然の結果である。)Daily Reportと、AI DJを比較すると、AIと人間の間にフィードバックを発生させるためには2者間のインターフェースの設計が重要であるように感じる。創造性の拡張は自由度の制限と直結しており、AIと人間の間に起こりうるフィードバック関係においても、2者間で受け渡される情報をどのように限定するのかを工夫することにより、エントロピーの波にうまく乗れるようになるのではないだろうか。

2: 低い文章生成精度

本作品で学習したモデルによる生成文章は、最終的には一般的なGPT-2モデルよりも文章生成精度が低くなってしまった。原因は2点考えられる。一つめは、そもそも日報がファインチューニングというタスクに対してでもデータセットが少ないという解決が困難な課題である。2つ目は、前処理が不十分だったことだ。特に、noteからスクレイピングしてきた文章の前処理が不十分であったために、ハッシュタグや絵文字の連続が生成文章に現れるようになってしまった。ファインチューニングでは学習用データセットがそもそも少ないため、前処理をぬかるとすぐに生成結果に影響を与えてしまう。この反省を踏まえて、後に述べるCompressed ideographs -visualized- updateではデータセットを一から作り直している。

3: コンセプト

上述したコンセプトは、単刀直入に言って長くて複雑だ。日報というメディア、文章生成モデルというメディアへの理解が求められた上で「人間性のありかはどこなのか」という議論が始まり、2つのAIの役割と対比構造を明示した上でAIのあるべき未来について見解を示している。そもそもメディアアートは芸術のさまざまな分野の中でも特に説明的な傾向があり、コンセプトに何を書くのかが重要である。その中で、作品が用いたメディウムへの理解と、その作品が表現しているコンセプトへの理解がフェーズとして分離していると、難解さが高まるのではないだろうか。作品を作る際に自己批判的なメディアの使い方をするのであれば、あるメディアを使う理由そのものがコンセプトになっている状態が理想的であると言える。もっというのであれば、「監視社会の迷彩服」や「新しい漢字の作り方」のように、1文でも簡潔に表せるようなコンセプトこそ、鑑賞者に優しく独りよがりにならない作品なのではないだろうか。

作品制作2: Noise Sculpture

x-visual2021_2H_20220204 1p

本作品は、ネットワークベンディングにより写実的でありながら不確定性の高い出力を三次元再構成モデルで試みる。ネットワークベンディングを用いた視覚表現はAIアートの潮流にすでに存在するが、それらのほとんどは画像の生成モデルで行われている。Noise Sculptureでは、三次元再構成モデルであるNeRF(Neural Radiance Fields)を用いることで、ノイズが乗っていて不確定性が高いが、写実性も担保されている3Dモデルを作ることを目指している。

技術解説

NeRFとは、複数視点からの画像をDatasetとして与え、3DModel(Volume)を再構成するモデルである。画像とその画像に対応するカメラ座標および方向を5次元の入力として与え、カメラを原点とした光線の各点における色情報と密度が出力される。それらの出力をもとに画像をレンダリングし、元画像との差分から損失を計算する。モデルはCoarseとFineの2段階に分けられており、Coarseでは光線上の各点を均等にサンプリングして色情報と密度を計算し、Fineでは密度が高い部分に対して重点的にサンプリングを行うことでディテールの表現まで細かく行うことを可能にした。

x-visual2021_2H_20220204 10p

詳細な出力結果については以下を参照されたい。

自分が担当したのは、FOVの変更である。入力に対してカメラの画角のみを変化させることによって出力にどのような変化が生まれるのかを観察した。

FOVの変化

画像の解像度を変更しないまま画角を変更することにより、カメラの焦点距離が前後するはずである。しかし、カメラの座標情報は変更しないため入力における焦点距離は変化しないため入力情報に矛盾が生じる。この状態でどのような出力が行われるのかを観察した。

結果(左上: Ground Truth 右上: 画角0.5倍 左下: 画角2倍 右下: 画角3倍)

結果の動画:https://drive.google.com/file/d/1aQlGpt6hDuDfW7UdSnoaT0nrIgUFIgvH/view?usp=sharing

結果としては、ボケ感が出るものの焦点距離の変化に応じて寄りの画や引きの画が現れた。画角を狭くした時よりも広くした時の方が変化が目立つ傾向にあり、画角を3倍以上にすると焦点距離が短くなりすぎてオブジェクトの一部がカメラよりも後ろに来てしまうが、そうした部分は描画されないようになった。

評価すべき点と反省すべき点

1: 超ボトムアップな制作の経験

Noise Sculptureではコンセプトを立てるよりも先にNeRFというモデルを使うことを決定して、モデルを触り実験を繰り返していく中で面白い表現を模索するというスタンスを取った。結果として完全な作品とはならなかったものの、技術を触り続けて宝探しのように面白い表現を探す行為の楽しさを知ることができた。単に「ボトムアップに制作を行う」と言っても人によってボトムアップの具合はそれぞれで、今回の制作は自分が思っていた以上に技術を触ることによる発見をストイックに求め続けた。ボトムアップな制作にも、トップダウンな制作にもそれぞれ良さがあり弱点がある。ボトムアップには数を打つという労力がかかるものの、メディウムスペシフィックかつコンセプトが想定し得ない作品の余白を生み得るのはボトムアップな制作である。自分が今後作品を制作していく上で、この作品制作のスタンスの良し悪しを学べたことは非常に大きい。

2: アーキテクチャへの理解不足

本作品で利用しているNeRFを含め、三次元再構成モデルの基礎的な理解やそれに続くNeRFの仕組みを理解することが非常に難しかった。これは、数学的な知識やコードの読解力、Compressed ideographsのアップデートに伴う時間不足といった問題が総合的に絡んでいる。このような状況下においては、まず成果をうむために自分ができる範囲のことを着実にこなすべきであり、今期は自分のできそうなFOVの変化の実験と諸々の手伝いのみを行って、Compressed ideographsのアップデートに注力した。タスクの分配としてチーム全体としてうまくいったと考えているが、自分の基礎的な理解が足りていないことは確かなので、春休み中にpytorch実践入門を読んで、来期は線形代数の授業を履修しようと考えている。

3: 技術進歩のスピード感

NeRFは、制作期間である4ヶ月弱の間にも大きな進歩を遂げた。自分たちが技術に触り始めたころと比べて、現在はカメラの座標情報が必要で無くなったり、より大きなフィールドの再構成が可能になっている。Deep Learningの世界は日進月歩であることは理解しているが、NeRF関連技術の発達スピードには非常に驚かされた。サーベイの重要性を改めて思い知ったと共に、ボトムアップな制作ならではの弱点であることも理解した。

作品制作3: Compressed ideographs -visualized- 2nd edition

本作品は任意の文字列や文章を深層学習で一字の新しい漢字に圧縮する”Compressed ideograph”シリーズにおいて、実際に鑑賞者が文字を入力して漢字の生成と可視化を体験できる作品である。本作品は、ADAA 一般カテゴリー インタラクティブアート部門 入賞、山梨メディア芸術アワード 優秀賞を獲得している。また、「Visible x Invisible ──ビッグデータと次世代の情報表現」にて展示を行なった。以下にコンセプトを示す。

This work is an interactive installation that allows viewers to experience the creation and visualization of kanji characters by actually inputting characters in a new series of kanji characters named “Compressed ideographs”, which are created by DALL-E, a deep learning model that differs from any of the methods used to create the six kanji characters (hieroglyphs, fingerspelling, kaiyi, phonetic, transcriptions, and pseudonyms) created in history.
Since the second century, kanji characters have been created and classified into six categories (Rokusho) according to their origins. Kanji characters themselves are still being created for newly discovered elements, for example, but they are created by people using existing methods. In today’s increasingly complex and diverse world, is it possible to explain the world using only kanji characters created using conventional methods? In this work, we used a deep learning model to create a seventh category, which we named “Compressed ideographs”, which can be applied to any text.
We used a transformer model called DALL-E to generate the kanji characters, and the authors trained it on a large number of pairs of kanji characters and sentences describing the meaning of the kanji characters. In this way, for any string or sentence input by the viewer, a kanji character is generated that is compressed into a single character. At the same time, arbitrary character strings and sentences entered by the viewer are vectorized into 300 dimensions by the Doc2Vec model trained by the authors, and then their location in the 3D space created by the dimensionality reduction algorithm UMAP is calculated. The newly generated kanji characters are then placed together with a huge amount of existing kanji characters in a 3D space that represents the meaning of strings and sentences. In addition, the relationship between the two is visualized by displaying the kanji characters that are closest in meaning to the existing kanji characters, and by randomly displaying a large number of similarities to the existing kanji characters.
Through the experience of plotting kanji characters that reflect complex features in the meaning of the text by AI, viewers can explore the gap between characters that have been created and fixed by humans and those generated by AI.

アップデートした点

今回のアップデートでは、Machine Learning、Visual共に大幅にアップデートを行なった。自分はMLのアップデートをリードしたので、以下ではその紹介を行う。Visのアップデートに関しては、こちらの資料を参照して欲しい。

Edition 1の反省点

9月に制作したEdition 1では、上記のような反省点があげられた。DALL-E(テキストから画像を生成するモデル)のデータセットが非常に少なく、また辞書からスクレイピングしたテキストの前処理も不十分であったため、テキストと漢字のContentsのマッピングが見られない場合が多かった。また、推論速度が遅く一回の試行(画像生成+潜在空間可視化)におよそ20秒近くを要していた。

ML アップデート1: データセット

以上を踏まえた上で、まずはデータセットを刷新した。中英辞典の参照元を、CC-CEDICTに変更してより多くのサンプルを獲得した。また、正規表現を用いた不要な情報(品詞情報、固有名詞など)をルール付けで除去し、ストップワードを除去し前処理を丁寧に行なった。漢字画像のデータセットは、dVAEの学習過程ではフォントの種類を大幅に増やしStyleをCodebookに学習させた上で、Transformerの学習過程ではフォントを太ゴシック体のみに限定してCodebookから選択される潜在表現を限定することで出力される漢字の線幅が一定になるようにした。また、一部のマイナーな漢字はフォントセットに収録されていない場合があるので、それらをcv2を用いて判別しデータセットから除いた。結果、dVAEでは15万エントリ、Transformerでは21万エントリでの学習を実行した。

ML アップデート2: アーキテクチャ変更

データセットのアップデートを行なった上で、DALL-Eそのもののアーキテクチャも変更した。画像の入出力を128*128の1chan(グレースケール)にし、またテキストの最大長を従来の半分にすることで推論時間の高速化を図った。さらに、テキストによる条件付けの強さをハイパーパラメータ化した。これはClassifier-Free Diffusion Guidanceを参考にしており、学習時にtext tokenを確率的にドロップアウトし、潜在空間におけるunconditionalな分布からconditionalな分布への大まかなベクトルを導き、どちらの分布に近づけるかで、conditioningの強さを変えることが可能になるという設計である。以上の変更により、推論時間が以前より4倍近く高速化した。また、辺と作りの構造を持つ出力が増え、一部のエントリでは学習データのテキストに対してほぼ完全な正解画像を導くことができるようになった。

評価すべき点と反省すべき点

1: 生成精度の向上と推論時間の短縮

今回のアップデートでは、MLのアップデート担当は自分のみとなっていたため責任が重大であった。しかし、結果としては生成精度が向上され、推論時間を短縮することができた。これは、チームの同期や先輩方がVisのアップデートを完璧に行い自分がMLに割けるリソースを増やしてくれたからに他ならない。DALL-Eの改善は見られた一方、潜在空間の可視化を行うDoc2VecとUMAPのアーキテクチャやモデルにはほとんど変更がなく、推論速度や表現の精度に向上の余地が大きく残っている。

2: VisへのMerge

MLのアップデートを行うことはできたが、それをVisのTouchDesignerに接続する段階が難しかった。TouchDesinger上での環境構築に非常に時間がかかってしまったため、直前の設営でチームのメンバーに迷惑をかけてしまったことはとても反省している。また、TD上でPythonの非同期処理をおこなっていないのでユーザーがテキストを入力し終えてEnterが押されるたびにモデルをインスタンス化しており、ここで処理が長引いてしまっている。自分にTDの知識がもっとあればこのあたりのMergeも円滑に進んだはずであるため、春休み中はScottさんの資料TDSWでTouchDesignerに触れる時間を増やそうと考えている。

展示1: Alternative Dimension

会期:2021年9月23日〜9月27日

会場:Tires Gallery

Daily Report
Compressed ideographs -visualized- Edition 1

展示2: TUB第12回企画展「Visible x Invisible ──ビッグデータと次世代の情報表現」

会期:2022年1月28日〜2022年2月12日

会場:Tama Art University Bureau

Compressed ideographs -visualized- Edition 2

https://tub.tamabi.ac.jp/exhibitions/2027/

展示3: やまなしメディア芸術アワード 受賞作品展

会期:2022年2月3日〜2022年2月6日

会場:山梨県立美術館県民ギャラリーB・C

Compressed ideographs -visualized- Edition 2
Compressed ideographs -visualized- Edition 2

https://y-artaward.jp/

デモ実装: デジタル空間の終活 - 文体ベクトルと NFT で「自分らしさ」を遺す -

概要

https://youtu.be/wqzc_T4KDNY

本研究では、現実世界で行われる「終活」をデジタル空間上においても行うために、個々人が SNS に残した文章から「その人らしさ」の核となる文体の癖だけをデータとして抽出しアクセシビリティを限定して遺族だけに残すことを目指している。終活は、自分の死後になにを残しなにを残さないかを明確化し、死後の自分のあり方を主体的に選択する側面をもつ。これによって、死後の自分の扱われ方を決定しプライバシーを確保することが可能となる。一方で、デジタル空間には未だ「終活」の手法が確立されていない。この研究では、デジタル空間での終活を行う具体的手法として、Text-Style-Transferという深層学習の手法とブロックチェーンというデータの保管方法を組み合わせてデジタル空間における終活の手法をプロトタイピング、検証する。

デモについて

本研究は、2022年度エキセントリック・リサーチ奨励制度に応募し不採択となった。以下に、応募前に行なったText-Style-Transferモデル(Cross Alignment Auto Encoder)の再実装のWIP資料を添付する。

https://docs.google.com/presentation/d/1hVhr_B87K0krPVnFbfhhV1nGynNFEkzSnhuMHqR9WXI/edit?usp=sharing

評価すべき点と反省すべき点

1: Daily Reportの後続としての研究

この研究は、Daily Reportの制作から着想を得ている。Daily Reportでは人間性の要件としての個人性に着目したが、そこから本研究ではデジタル空間に残される個人性の取り扱い方に着目している。石井の研究領域である自然言語処理の技術を応用して、テキストに現れる個人性という一貫したテーマから研究を始められた点は評価できる。

2: デモがうまくいかなかった点

今期のやってみた報告では、この研究の基礎的な技術であるCross Alignment Auto Encoderの日本語による再実装を行なった。しかし結果としてはそれらしい出力が得られるには至っていない。デモの発表後に日本語出力が可能になったものの、未だContentsとStyleの分離が定性的に判断できるわけではなく、他の作品制作との兼ね合いで実装を進められていない。この点は今後Text-Style-Transferのサーベイをより深く行うと同時に、きちんと時間を取って研究を行なっていきたい。

3: 扱う領域の広さ

この研究はText-Style-Transferによる文体抽出と、抽出された文体ベクトルをNFTとしてMintする2段階に分けられる。自分はNFTに関してはサーベイを行なった程度で実際に作品をMintしたり購入した経験のない状態で議論を行なっているため、机上の空論を叩いている感覚が否めないように思える。また、Text-Style-Transferは自然言語処理の中でも特に難しい問題であり、「個人から得られるごく少量のデータセットからStyle情報を抽出する」という本研究が目指す技術開発それ一つでも十分研究領域となりうる。時間は限られているため、今後の発展性としてはまず前段階であるText-Style-Transferによる文体抽出を集中的に研究していきたいと考えている。

サーベイ・学習1: Paper Survey

今期のx-visualチーム内でのSurveyは、隔週でPaper SurveyとArt Surveyを交互に行う方式を取ることで技術に偏りすぎずに作品のアイデアを醸成していくことを目的としていた。(これは、前期の反省を踏まえている)今期石井が行なったPaper Surveyを以下に示す。

BERT — Pre-training of Deep Bidirectional Transformers for Language Understanding

Taming Transformers for High-Resolution Image Synthesis (VQ-GAN)

サーベイ・学習2: Art Survey

Art Surveyは、隔週で一人5点を持ち寄り大まかなサーベイをしたのちに、その中から1点のみを重点的にサーベイするという方式をとった。今期石井が行なったArt Surveyを以下に示す。重点的にサーベイした作品は大文字で示している。

Ambigrammatic Figures

Fullyconnected-autorefractor

Floating Utopia Act 2

Re:FACE / Re:FACE, Anchorage Version

Public Art Project | JCDecaux Screen Guangzhou Airport

cinema

Color of words

The Treachery of ImageNet

The Anatomy Lesson of Dr. Algorithm

Sound of Ikebana Four Season

Annotators’ View

An interpretation of Bertillon’s spoken portrait

Evolutionary faces

来期以降に向けた反省と展望

1: 持続可能性の向上

今期は3つの作品制作に1つのデモ実装、それに並行して共同研究を行なっていたため正直かなり無茶をしていた実感がある。生活リズムが崩れ食生活バランスが悪くなってしまった。これでは楽しい研究や作品制作も楽しく無くなってしまう。健全で回転の早い思考を行うためにも来期は自分の生活をただし、研究や作品制作の持続可能性と効率の向上を図りたい。そのため、月一目標で生活の中で何かを継続するように設定することとした。とりあえず2月中は「自炊」を復活させることを目標にしている。また、研究以外のことに本気で打ち込む時間を今季は取れなかったことで精神的に悪い影響が出ていたので、研究以外のことにも本気で取り組みたいと思う。

2: 外に出る

これまで1年半徳井研に所属して、バイトでクリエイティブ業界に関わることがあっても、自分で手を動かしたりディレクションを行うということはなかった。「仕事」という責任が伴う範囲の中で報酬をもらいながら徳井研で学んだことを外で発揮する機会を来期は設けたいと考えている。就職か進学か、4年生以降の動きも考えると一度外に出るというフェーズは必要であり、自分もそれを求めている。次の夏休みには機械学習系、もしくはクリエイティブのエンジニアか、アシスタントディレクターとしてのポストを外部に持ちたい。そのためにも、どういう企業が募集しているのかを春休み中に入念にリサーチし、今ある研究室や外部とのつながりを大切にし、枝葉を広げていきたいと考えている。

3: 技術力の向上

先学期も、その前の学期もそうだが、根本的に技術力が足りてないという実感が消えることはない。今季は作品制作で忙しく輪読本がなかったため、技術的向上を図る機会が制作の中でしかなかった。DALL-Eのアーキテクチャ変更ではPytorchのDataLoaderの仕様や、GPU上で扱えるテンソル計算の制限を理解しておらずデバッグに時間を要した。また、NeRFの実装コードを読みどのメソッドがどの役割を果たしているのかを理解するのにも時間がかかった。CIのVisへのマージで起きたトラブルに関しては上述した通りである。以上のことから勘案して、春休み中はB2勢でPytorch実践入門を輪読する予定にしている。また、TouchDesignerもTDSWの資料から興味のあるワークショップのアーカイブをみて実装しようと思う。また来期は線形代数の授業を履修して基礎的な数学力を醸成する。

4: 目的意識

4年生の研究プロジェクトや、その後の身の振り方をもうそろそろしっかりと考えなければいけない時期になっている。自分はもともとディレクションをやりたいと思っていたが、今期の制作の楽しさを経てそれが少し揺らぎつつある。院進か就職か休学か、選択したのちに何に打ち込むのか、自分の哲学である「手触りのあるあたたかさの交換」を継続していくには何が求められているのか。友人や家族、先輩に「今後どうするの?」と質問されても、はっきりとしたビジョンが全く見えない状態にある。数年後とは言わずも、3ヶ月先に何をしているのかは常に決めていたい自分としては、きっと来期は大きな決断が迫られ、その決断を実行に移すためにも外部との関わりを深めていきたいと考えている。自分が3ヶ月先にどこに辿り着いているのかのイメージをしながら、でも「覚悟」というほど大それたものを持たずに、好きなことを、自由に、人に迷惑はかけずに、持続可能性を持って続けていきたいと思う。

--

--