Looking for a new job….

Introduction

転職活動という訳ではないのですが、自分の勤め先の外でどのような技術が求められていて、そこに自分が当てはめられるのかを確かめたいためにこの記事を書きます。最後にも述べていますが、お話だけでも聞かせていただける企業様がいらっしゃったら連絡をくださると嬉しいです。
こちらの情報も必要だと思われるので、自己紹介を書いていきます。自分の技術が果たして興味を引くものかは分からないですが….

経歴

現在24歳です。出身大学と現在の経歴は以下です。

  • 京都大学工学部電気電子工学科 2016年卒業
  • 京都大学大学院電気系電子工学専攻 2018年卒業
  • 某企業の開発系(機械学習) 2018年〜

大学では「とある結晶を用いた薄膜Si太陽電池の高効率化のための設計と作製」について研究していました。研究内容は主に2つの側面があります。まず高い電流値を得られるようなとある結晶構造の最適化を行うため、Cを用いた数値計算をはじめ、遺伝的アルゴリズムや機械学習を用いていました。それから設計したとある結晶構造を導入した太陽電池を作製していました。Siウエハを用いて一から作製していました。現在は主に機械学習を中心とした業務で音声処理をやっています。

スキル

  1. プログラミング
  • C 一通り書けます
  • Python こちらも一通りは。
  • Rust, Haskell (本当に)チョットデキルレベル

2. 画像処理
上記のように私は電子工学出身というのもあり、画像処理を専門にやっていた訳ではありません。あくまでも趣味の範囲です。
機械学習を用いた画像処理を中心にやっています。主に使うフレームワークはChainerです。KerasとPytorchは調べながらであれば使えます。特に以下のタスクに取り組んでいます。詳しくは私の書いたブログをご覧ください。

  • GANやFlowを用いた画像生成
  • CycleGAN、StarGAN etc…を用いた画風変換
  • pix2pixベースの線画着色
  • SRGAN, ESRGANを用いた超解像
  • VideoGAN等を用いた動画生成
  • 基本的なネットワークを用いた画像認識、セグメンテーション

GANについてはarXivのCV分野は毎日読んでなるべくキャッチアップしていて、それ以外の手法も主要な国際会議(CVPR, ECCV, ICCV, ICLR, ICML, NeurIPS等)で出ている論文は読んで気になったものは実装したりしています。

3. 音声処理
現在業務で行っています。こちらも専門にやっていた訳ではありません。
主に以下のタスクに取り組んでいます。画像処理でもそうなのですが、基本的な信号処理部分も理解しています。

  • デノイズ
  • 音源分離
  • 話者認識
  • 声質変換
  • 音声合成 (Tacotron2, Deep Voice3, WaveNet, WaveGlow)

こちらも主要な国際会議で出ている論文は読んで気になったものは実装したりしています。

4. 機械学習
画像処理、音声処理が中心となっていますが、以下のような機械学習手法も扱うことは可能です。

  • 系列データや自然言語処理のためのRNN(LSTM, Transformer)
  • 分類のための線形回帰、ロジスティック回帰、SVM etc…
  • クラスタリングのためのK-Means、階層型クラスタリング、GMM etc…

5. その他
今まで機械学習のことを中心に述べてきましたが、以下のような技術も使うことは出来ます。

  • Docker
  • Git

やりたいこと(?)

自分が上記スキルを元にやりたいことを述べていきます

  • 機械学習による画像処理を用いた創作支援
  • GANの実社会への応用

です、勿論機械学習を用いたソフトウェア開発も行っていきたいと考えています。

やりたいこと

私は、一人の女の子の生成を行いたいです。私は見守り型なので、その女の子が現れて勝手に話すさまを眺めていたいです。生身の人間としての生成は難易度が高いので、まず画面上にLive2Dのように女の子を動かして、生成したテキストを音声付きで呼ぶことを目指しています。そのためには、以下の要素技術が必要だと考えています。勿論他にも必要な技術はありますが、機械学習面では以下が必要だと考えています。

  • 動画生成
    動画生成の研究はなされていますが、まだ研究レベルでさえ入力ノイズから長いフレーム数の動画を生成するのは難しいと考えています。従って動画を直接生成するよりかは、一枚画像を生成してそれを動かす方向性です。自分のブログでは、画像生成は勿論、生成した画像に対して瞬きを与えることまでは出来ています。後はこれを顔全体・体全体に適用できるかです。
    また、音声が付くならその音声に合わせて口や体が動かなければいけません。そこをどうするのかという課題もあります。
  • 音声合成
    データ次第です。データが十分な状態(LJSpeech等)ではTacotron2 + WaveGlowで自然な発話が可能になっているので、手法はこのままで大丈夫かなと考えています。また、Deep Voice3のSpeaker Embeddingのように、Emotion Embeddingを行って感情表現を豊かに出来るのを目指します。
  • テキスト生成
    こちらが個人的には難題です。というのも、私が自然言語処理に対して知見がないのもありますが、自然なテキスト生成が可能になったという報告や論文を未だ知らないからです。以前LSTMやSeq2Seqでテキスト生成を試みましたが、自然と呼ぶのは程遠い感触でした。今はもっと精度良く出来ているかもしれませんが….

という感じです。せめて趣味でやれですね、はい。ですが、全く冗談のつもりはないです。

最後に

ここまで読んでいただきありがとうございました。興味を持っていただけた企業様がいらっしゃったら、お話だけでも聞かせていただきたいと思っています。TwitterのDMやGithubにあるGmailでお願いいたします。

Twitter Account

Github Account