これまで取り組んできた学習シミュレーター開発での気づきや、GAN(Generative adversarial networks 略称: GAN)による画像生成AIのような新技術の登場によりどのような展開が期待されるか、バーチャルヒューマンエージェントの行動制御を担当する染谷洋介とCEO石井敦が語ります。

▼ポッドキャスト本編
YouTube
Apple Podcast
Spotify
Google Podcast

エンジニア視点での学習シミュレーター開発の難しさ

石井:AI学習シミュレーターが最近いくつか出ています。我々が作っているバーチャルヒューマンエージェントもそうですが、AIは様々な状況を学習する必要があります。現実世界で的確に学習もテストできるに越したことはないですが、学習すべき色々な状況をすべて作るのは非常に難しい。例えば渋谷の街を自動運転車のAIに学習させようとした場合、そこで起きうる全ての状況を実際に作り出してカメラで撮ることはできないわけです。そういう意味で学習シミュレーターのニーズは上がってきています。

学習シミュレーターを適切に作ることができれば、学習データを無限に作ることができます。さらに、これが人であるとか、車であるというような、アノテーション作業も自動化できます。そして、あらゆる状況を作り出すことができます。天気は雨だったり、風だったり雪が降っていたり、あるいは渋滞だったり、人が多かったり少なかったりとかですね。

クーガーもバーチャルヒューマンエージェントの学習をさせるという点から、これまで学習シミュレーターの開発をやってきました。染谷くんはまさにその一員でしたが、学習データ作りで大変だった点はなんですか。

染谷:まず、それが本当に人に見えるかどうかですね。シミュレーターなので、人に見えて当たり前なのですが一番大変でした。

石井:人から見て「人に見えるか」という話だけでなく、学習するAIから見て、本物の人と差がないかという点ですか。

染谷:そうですね。例えばCGで作るとどれも表情が似た感じになるがそれでいいのか、同じ表情でも数があれば精度が上がるのか、微妙に変えた方が精度が上がるのか、とかですね。

しかも、一度学習させないとどれが良いか分からないので。服は一緒がいいのか、色を変えればいいのか、サイズ感を変えればいいのかなど、本当に色々なパターンがあります。もちろん、あらゆるパターンを作れたら楽ですが、そう簡単には作れないので、どこまでやるかの見極めが本当に大変でしたね。

石井:モーションもですよね。あとは、持っている荷物や、何かを持っているときの体の姿勢とか。

染谷:はい。一番大変なのは、やっぱり人に関するモデリング、調整が大変ですね。

--

--

AIのタスクが複雑化する中で必要性が大きく増大している「説明可能なAI (XAI=explainable AI)」について、クーガーCEO石井敦とマーケティング羽入田新が語ります。

羽入田:私も最近「XAI」という言葉を聞く機会が増えました。XAIというものの概念、その言葉が意味する目的・背景といったところについて、石井さんのお考えをお聞かせください。

--

--

バーチャルヒューマンエージェントの行動制御エンジンを開発する土田悠貴とCEO石井敦が、リアルタイムにコンパイルしてプログラムを動かす実行時コンパイラ(あるいは、JITコンパイラ)について語ります。

石井:世の中のシステムで最も重要かつスピードを求められるものは、今でも大体CかC++で作られています。CやC++は非常に実行速度に優れていて高度なものが作れるのですが、逆に気軽にスピーディーにコーディングするのは難しいという側面があります。

人間の行動には、習慣のように無意識に着実にやらなければいけないものと、パッと思いついたり指示されたことを柔軟にこなすものがあります。つまり、着実性と柔軟性の両方を兼ね備える必要があるわけですね。

そんな中で、C++は、Cの安定かつ高度なものができる点と構造的にプログラミングできるという両方を兼ね備えていて、重要なシステムによくC++は使われています。実行速度もC++が一番早いと思いますが、パフォーマンスに関して土田さんどう思われますか?

--

--

公開中のポッドキャスト「意識をプログラミングするには」の導入部分をテキストでご紹介します。

出演:石井敦(クーガーCEO)/本村淳(クーガー キャラクターAIデザイナー)

— — — — —

石井:そもそも「意識する」という言葉の定義とは?

本村:意識という言葉は大きく分けて「覚醒している」「何かを認識する」「自発的に何かを判断する」の3つの意味で使われていると思いますが、ここでは最初の「覚醒している」という意味で使っていきたいと思います。覚醒している=意識があるときに、人間の脳はどのような処理をおこなっているのか?という。

単細胞生物は遺伝子に設定されたルールに従った行動しかできず、振る舞いを変えるには子孫を作って世代を変えていくか、遺伝子の変異を待つしかないため、環境の急激な変化で絶滅してしまうこともある。

でも、人間のような生物はリアルタイムで環境を認識し行動を変えることができるわけです。脳にある新皮質という部分が、高度な環境認識を可能にしています。人間は生涯この環境適応を延々繰り返しているから、個体の生存率は他の生物に比べ大きく上昇するんですね。

石井:なるほど。書き換えできないソフトと、どんどん上書きできるプログラムの違いのようなものですね。人間は生まれてからひたすらインプットを繰り返すわけで、それにより凄まじい環境適応能力を生み出す、と。

本村:はい、リアルタイムで環境を認識して行動を変えることができるのは適者生存の世界では最強の武器になるように思います。それがどのような仕組みで動いているのかを考えてみました、という話をしたいと思います。

人間は覚醒している間、全身のセンサー、感覚機能から脳にさまざまな情報が伝達されてインプットが行なわれ、リアルタイムで脳が情報を認識し、それが何なのか予測・判断しアウトプット、つまり行動に移すという処理を行っていると考えられます。

ここで言う「行動」には外から見える動きだけでなく、考える・理解するというような行為も含まれます。こういったアウトプットによって内面的なものも含めて環境が変化します。この変化を新しい情報として認識して、予測・判断・行動を行うという一連の処理を、時間をかけて繰り返しているループが「意識」なのではないかと思います。

石井:つまり、酔っぱらっていたりなど、意識が明確でない状態の時はこのループ処理が滞って振る舞いの精度が下がり、睡眠中などはこういったループ処理が止まり、意識以外の最低限の生命活動のみ行なっているわけですね。

本村:はい。プログラムでいうメインループですね。深い眠りにあるときや気絶しているときは、インプットを認識できなくなるので、このメインループが止まっているんだと思います。

石井:意識の話で言うと、たとえば毎日同じコースで車を運転している人の場合など、車の運転という複雑な行動をしているにもかかわらず、特に考えているという自覚なく行動していますよね。

本村:シンプルな目的が設定されているからだと思います。テーブルの上のコップを取るときでも、人間は特に手や腕の動きを深く考えずに行動をとります。環境に適応する中で人間はタスクを細かく分け、それぞれの目的に向かって行動をとります。車の運転も同じことなのではないでしょうか。

— — — — —

続きはポッドキャストでお聴きください!

YouTube

Apple Podcast

Spotify

--

--

Couger Team

We develop next generation interface “Virtual Human Agent” and XAI(Explainable AI).