CHI2024を振り返って

ヒューマンコンピュータインタラクション研究のトップカンファレンスであるACM CHI2024がハワイで開催された (5/11–5/16)。会議に出た感想を残しておく。

AIの席巻

ある程度予想はしていたがAI、LLMと人間とのインタラクションをトピックにした発表が激増していた。CHIはパラレルセッションで、同時に20セッションぐらいが並行して発表が行われている。同時刻に開催される複数のセッションタイトルにAIやLLMが入っていて、もはやすべてを見るのが不可能な状態になっていた。

AIと銘打っていないセッションでも、要素技術として機械学習を使っているものは多いので、体感では半分以上の研究発表が何等かの意味でAIを使っている感じだった。少し前までは機械学習としってもSVMやCNN、LSTMぐらいでtransformersを使っていたら新しいね、ぐらいだったのだが、LLMが状況を変えていて「誰でもすぐLLMをつかってHCIの研究(らしき)ことができる」ようになっているのも要因だろう。これは別に悪いことではなく、ある研究領域が盛り上がるためには「入り込みやすさ」は重要である。

そして当然CHIコミュニティ外の動きも早い。奇しくも会議開催中にOpenAIのChatGPT 4-oやGoogleの新技術なども発表されて(しまい)、発表論文は半年前に投稿されたものというCHIの性質上、古臭く思えてしまうものも散見された。

私はCHIに参加してから約30年であるが、1年でこんなに様相が変わった経験はない。パラダイムとしてVR、AR、WWW、タンジブル、ユビキタス、モバイル、ライフログ、ファブリケーション、などのキーワードがあったが1年にして全てを書き換えるような規模のものはなかった。AIはCHIコミュニティ発の技術ではない、ということを置いておいても(たぶん他の技術系学会では程度の差こそあれそうなのかもしれないが)まさにゲームチェンジを目の当たりにした感がある。

Direct Manipulation時代から次の時代へ

こうなってくると、CHIの大きな物語が終了して次の時代が開いたといっていいだろう。CHIの大きな物語とは、すなわちダイレクトマニピュレーション(直接操作)時代である。Ivan SutherlandやDouglas Engelbartらが切り開いた「コンピュータを実時間に操作し、実時間のフィードバックを得ながら対話的にコンピュータを使っていく」というパラダイムが、すくなくとも研究対象としては一区切ついたと考えるべきだろう(研究としてはスマートフォンの登場あたりですでに区切りがついていたのかもしれないが)。

次は何かというと、AIと何らかの「会話」をしながら目的を達成するという方向がある。これは発想自体は特に新しいものではなく、自然言語インタフェース、エージェント指向インタフェースと呼ばれ今までも研究は続けられていたし、映画 2001年宇宙の旅のHALなど、むしろ普通に思い浮かべる未来のインタフェースは直接操作よりはエージェント型だろう。CHIコミュニティでも以前から当然そういう発表はあったのだが、マジョリティとしてのダイレクトマニピュレーションの地位は揺らいでいなかった。が、ここにきてついにその「大きな物語」が一区切りついた感がある。ダイレクトマニピュレーション不要とか無くなるということではないが、もはや主役ではないということだ。(「会話」とカッコ付きで書いたのは、それがかならずしも狭義の言語会話に限定されず、生体情報、非言語情報、コンテキスト、履歴、さらにはBCIなどの可能性も包含しているという意味である)。

エージェント指向ビジョンの代表例としてAppleのKnowledge Navigator (1987)がある:

これはエージェントと会話をしながら、画面のタッチ操作も併用し、さらに複数の人間とエージェントが会話するという、エージェント指向インタフェース、音声による自然言語インタフェース、CSCW(コンピュータ支援による共同作業)などのエッセンスがつまったものだ。実在の技術ではなく、1987年(web誕生前!)に未来ビジョンビデオとして制作されたもので、2011年ごろの未来を想定していたと言われている。

このビデオは今見ても魅力的で、ChatGPT等のLLMが近々にこうなるという期待を感じさせる。「お金出しても欲しい」に分類されるものだろう。また、瞬間芸的な奇抜なものを作ろうという意図が微塵も感じられないのも素晴らしい。未来であると同時にひたすら自然である。

ただ最近までは実現が難しかった。音声認識の精度、話者意図の推定、背景の知識のマイニング、非言語的要素(ちょっと言い淀むなど)の活用など、それぞれの要素技術が研究課題となる時代が続いていた。

その要素がすべて出揃ってきた。たぶん、研究発表というよりもOpenAIやAppleなどからKnowledge Navigator に匹敵するあるいは凌駕するものが出てくるのではないか。

ちなみに我々の研究グループではサイレントスピーチと称して、声帯の振動なしで音声コミュニケーションができる技術を研究しているが、これもAIと人間のインタラクションスタイルが大幅に変化するという考えに基づいている(公共の場所では声を出すインタラクションは憚られる場合もあるので、モバイル型のKnowledge Navigatorを作ろうとするとサイレントインタフェースが必要になる):
Watch Your Mouth: Silent Speech Recognition with Depth Sensing, Xue Wang, Zixiong Su, Jun Rekimoto, Yang Zhang (CHI2024)

いずれにせよ、これらの新しい時代を象徴するキーワードは「indirect interface」かもしれない。ダイレクトマニピュレーションはコンピュータと人間を直結させるので、その間人間は他の仕事ができないとも言える。一方、現実世界では誰かに「この書類をプレゼン資料にしておいて」と仕事を投げることができる。あるいは「頼んでおいた会議の調整、できた?」と後から投げた仕事の確認もできる。この「投げる」こそ今やAI向けにできるので、全ての作業や操作を人間と実時間で結合する必要はない。これからの人間とAIとの関係を考えると、同時にひとつのことしかできない人間は、律速段階でありかつもっとも貴重なリソースである。人間と機械を「直接操作」として一対一で結合するのはもったいないことなのかもしれない。

ふりかえってみると、直接操作はCHIコミュニティから出てきたものではない。60年代〜70年代の、Sketchpad (MIT, Sutherland), NLS (SRI, Engelbart), Alto (XEROX PARC)など研究の隆盛を受けて、つまり直接操作パラダイムの結果として成立したのがACM分科会SIGCHIである(発足は1982年)。直接操作の結果生まれたCHIの第一幕が終わり、次の第二幕が始まるとしたら、CHI創設以来のグレートリセットということになる。

ということで、大きな時代の転回点に来たことを感じたCHI2024だった。AIの大洪水がすべてを流し去り、もはやHCIという研究分野は不要となるのか、さらに新しいインタラクションが生まれていくのか.. CHIは特定のインタラクションスタイルに特化しているわけではないので、むしろこのパラダイムシフトを飲み込んで発展していくのではという期待を持っている。私はガチギーク系なのでCHIでのエスノ研究は「敬して遠ざける」傾向にあったのだが、工学者だけでなく、心理学者や人類学者なども参加しているinterdisciplinaryコミュニティであるという点もCHIの強みであると感じている。

結論としては非常にわくわくしている。そして、次の時代を築くのは、今HCI研究をはじめた、これからはじめたいと思っている若い方々だろうと期待している!(私も若ぶってやります!)

CHI2024 発表プログラムはこちらです:https://programs.sigchi.org/chi/2024

また、CHIの全発表をLLMによって要約したカードデックがありますので参照してください(暦本研修士 今村翔太さん制作、それぞれ2Gのファイルなので注意):

日本語
https://drive.google.com/file/d/1CMkTdGlk1OhtScKUTB7Mt22GtWxgAIPV/view?usp=share_link

英語
https://drive.google.com/file/d/1pYZmprNU4PciLr1LBJ_aTMR0ZV14w7vy/view?usp=share_link

--

--

Jun Rekimoto : 暦本純一
日本語で読む 無料版

人間とテクノロジーの未来を探求しています。Human Augmentation, Human-AI Integration, Prof.@ University of Tokyo, Sony CSL Fellow & SoyCSLKyoto Director, Ph.D. http://t.co/ZG8wEKTvkK