「意識」について #3

Couger Team
Couger
Published in
10 min readDec 15, 2023

バーチャルヒューマンラボ副所長の手記を複数回に渡り公開中です。できるだけ人間に近い処理をするシステムを作り、社会の役に立てたい、そのためにどうすればいいかを考察した記録です。過去の手記: #1, #2

意識の機能的側面について

現象的意識を切り離した状態で、意識が持つ機能について考える
(=哲学的ゾンビをどうやれば実現できるかについて考える)

1, 覚醒的機能

・「意識がある」「意識がない」という言葉で表現される機能

・機能全体が稼働している状態と稼働していない状態を切り替える、または段階的・漸次的に変化させる機能

・神経回路の情報伝達ループに由来すると想定して機能面を考える

覚醒的機能は意識システム全体のループ処理
・秒間7–10回(7–10Hz, 100–142.8ms)のループ処理によって現象的意識を生成する
リベットの準備電位の実験により意思決定→動作開始まで200ms

リベットの準備電位の実験
意思決定した瞬間に被験者が見ていたタイマーの時間と、実際にボタンが押された時間、その前後の脳波の記録を分析した。
結果:脳波が準備電位を示す→300ms→意思決定→200ms→動作開始

ループ速度は状態によって変動する
麻酔中や睡眠中(ノンレム睡眠)は0.5Hz(2000ms)まで低下する
集中時は14–30Hz(33.3–71.4ms)まで上昇する
脳波と対応している

脳波
α波(覚醒時-通常) 8–13Hz(76.9–125ms)
β波(覚醒時-集中) 14–30Hz(33.3–71.4ms)
θ波(まどろみ) 4–7Hz(142.8–250ms) レム睡眠中は比較的早いθ波になる
δ波(深い睡眠時) 0.5–3Hz(333.3–2000ms) 麻酔中もδ波、現象的意識が発生しなくなる。

レム睡眠中に体が動かないのは扁桃体→脳幹→α-運動ニューロンに麻痺させる信号が出ていて、車でいえばクラッチを切っているような状態になっているらしい。 (寝言など体が動いてしまう人はクラッチを切りきれていない)レム睡眠中に夢をみるが、夢は「外界からの刺激(入力)がない状態で、脳内にある情報だけで生成される現象的意識」だと思われる。

人間の動作速度や反応限界
ボタン連打のような単純な作業はトップランカーで1秒間に16回ほど。(CPSの計測サイトより)秒間16回のとき62.5ms、中央値(一般人)は秒間6.69回で149.5msくらい。
格闘ゲームなどで反応の限界が10フレームと言われていて、60fpsのゲームなので10/60=166msくらい。入力動作という運動神経への伝達時間が含まれることを考えると、50–100msで刺激を受け取って判断・意思決定→50–100msで筋肉を動かすという感じだろうか?
※実験でも視覚刺激に対するボタン押しの単純反応時間は150–300msほどで、刺激モダリティの違いによる単純反応時間は 聴覚・触覚<視覚<味覚・嗅覚 になるらしい。(触覚と聴覚が速い)

一部の刺激は1回のループの中で複数フレーム分の情報を処理している?
普段の覚醒時に8–30Hzで視覚刺激を処理しているのは遅すぎる。 (人間は明らかに30fpsと60fpsの違いを認識できる)
8fpsで動作していると肉眼でストロボ効果(走っている車の映像でコマ落ちによってタイヤが停止・逆回転して見える現象)が発生しそう。
※肉眼でもストロボ効果が発生するという話もある。 (120Hzの照明によってコマ落ちしてるだけで太陽光では発生しないのではないかという説明あり)

しかし、反応限界などを見るに現象的意識の発生は脳波の遅さであっているように思う。ということは、視覚刺激などは現象的意識のループよりも多くの入力を受け付けていて、それらを配列のようなものに貯めて1回のループの中で一気に処理している?
そうすることのメリットが結構ある気がする、連続的な映像 = 動作を知覚できる。
映像的(時間的)な知覚は注意の制御に使えるし、動詞系の言語の理解にも繋がりそう。

あと、人間は3Dキャラクターのモーションファイルのような動作の記憶を持っているはずで、それも作りやすい。
他にも、光と音のように速度が異なるが、同じ事象から発生したものを、発生源が同じだと処理できる可能性が上がりそう。

同時性の窓
2つの刺激が異なる時点で発生したとき、それが同時に発生したように感じられる時間の幅のこと。
視覚 20–30ms(33.3–50Hz)
聴覚 5ms(200Hz)
触覚 10ms(100Hz)

2つの刺激が別々の刺激であると知覚されるためにはこの時間以上の間隔が必要。
やはり現象的意識のループよりも明らかに速く、刺激(入力情報)を複数回取れているように思う。

2, 理解的機能

・注意的機能や判断的機能のために、入力(刺激・感覚情報)を理解する(意味に変換する)というプロセスが必要になる

・理解的機能は注意・判断・意思決定・行動のための土壌

・認知過程でよく使われる3つの言葉から機能面を考える

-認識プロセス 入力された感覚情報に意味付けを行う処理 (長期記憶の検索)
-知覚プロセス 意味付けされた感覚情報の強さを計測する処理 (量的な計測)
-認知プロセス 感覚情報を基に意味を獲得する処理 (高度な推論)

認識プロセス

・長期記憶を基に感覚情報に意味付けをする
Deep Learningの自然言語処理で行っている分散表現(=分布仮説)のような長期記憶(学習済みモデル)がある
長期記憶を介して感覚情報のパターンに意味付けを行う

分布仮説 (Distributional Hypothesis)
ジョン・ルパート・ファース(Jhon Rupert Firth, 1890–1960, 言語学)によって1950年代に提案された言語学の仮説。

言葉の意味は他の言葉によって特徴づけられるという説で、word2vecのアイディアの基になった。

・情報同士の関係性(潜在空間)を生成することで意味を理解する

感覚情報のパターンを基にした様々な情報の特徴量を多次元ベクトルに変換・圧縮して空間上に配置する

ある情報は空間に配置されることで、他の情報との関係性(分布)が分かるようになる。

この関係性(分布)こそが物事の本質的な意味であり、これを生成することで似ているものや反対のものが解るようになる

潜在空間を生成・修正する処理は長期記憶の貯蔵過程で行われる

言語以外もデータの種類ごとの空間に配置される

機械学習の知識がかなり浅いので色々間違っているかもしれない。

言いたいことは特徴量を普遍的な表現として捉えて、潜在空間に配置して関係性を知るというような現在Deep Learningがやってることが、人間の理解の仕方の同じだと言うこと。

理解にはいくつかの段階があるが、理解の本質、根本的な仕組みは人間と深層学習で同じなのではないだろうか。

意味付けするデータには複数の種類がある

言語なら言語空間、物体なら物体空間というように、種類ごとに別空間に保存される
空間=データベースのようなものと考えると、データベースが複数あるということ
感覚情報ごとに空間が作られるのではなく、空間が先にあり、そこに入れる情報を生成しようとする
言語・音声・文字・物体など、取得しようとする情報は最初から(先天的に)決まっている
というようにある形式の情報を集めようということだけが最初に決まっている
それをどの感覚器の情報を基に生成するかは後から決まる (使えるものは何でも使う)

意味付けするデータの形式にはどのようなものが考えられるか

UnityEditorのアセットのようなものがあり、アセットの種類ごとに空間があるイメージ。
感覚器から得た情報を基にアセットを低次元圧縮した特徴情報を生成する。
-言語(意味・文法などの部分)
-音声言語(オーディオ)
-文字言語(テクスチャ)
-物体(3Dモデル)
-物性? (マテリアル?) 金属・流体・粘性・弾性などの物体の性質
-質感 (マテリアル) つるつる・ざらざらなどの触感の性質 触った感じ
-関節構造 (ボーン・ジョイント)
-動き (アニメーション・モーション)
-色 (マテリアル)
-音 (オーディオ)
-リズム (オーディオ?)
-論理 (スクリプト)
-顔・表情 (?)
-感触 (?) かゆい、くすぐったい、痛い 触られた感じ
-匂い (?)
-味 (?)
-場所 (?) 地図?3次元的だと思われる
-時間 (?)

基本的には使える感覚情報を何でも使って生成しようとするが、色空間のように視覚情報がなければ生成できないものもある。

つまり、メアリーの部屋のメアリーは色のある世界を見たときに、色空間の分布が修正されるか、新しく生成されるはず。

メアリーの部屋 (Mary’s Room)
哲学の思考実験。
白黒の部屋で生まれ育ったメアリーは、本で色に関するあらゆることを学習する。
白黒の部屋から出たときに新しいことを学ぶのか?学ぶとすればそれは何かという問い。

異なる空間の情報同士を結びつける機能がある
言語空間の情報と物体空間の情報など異なる空間の情報(概念)を結びつけることで記号接地が行われる
ある情報(概念)から他の情報への結びつきが多ければ多いほど理解が深いと言える?
これも関係性ということは分布問題で多次元空間?
CLIPのような仕組みだと思われるが、全ての空間を内包する多様体があって、それがマッピング的な役割を果たしている?

言語の他の空間との結びつき
「椅子」など現実に物体が存在する名詞は、物体空間の情報と結びついている。
「歩く」などの動詞は動き空間の情報と結びついている。
「つるつる」などの形容詞は質感空間の情報と結びついている。
「枚」などの助数詞(数え方)は論理空間の情報と結びついている。
「祖母」や「甥」などの親族関係を表す言葉も、ある人物を引数として渡すと答えを返すような論理と結びついている。
(※既に自然言語からプログラミング言語のコードを生成するAIがあるが、そういう感じで論理を生成するイメージ。)

数え方のロジック
物の数え方には論理(ロジック)がある。
・木製の立方体のキューブがある、これの数え方は「個」
・そのキューブを一次元的に延ばして棒状にする、これの数え方は「本」
・さらにその棒を二次元的に延ばして板状にする、これの数え方は「枚」
・これらの助数詞は、次元の広がりによって適用が変わるという論理(ロジック)と結びついている

たぶん普段(既知の物を数えるとき)は潜在空間で近くにあるものを持ってきて、論理の実行なしで数えているが、未知の物を数えることも可能で、そういったときは論理を展開して行う。 (体を動かすのと同じように脳内で論理を実行できる)

これが認知プロセスの高度な推論なのではないだろうか。

ちなみに助数詞が存在する言語(日本語など)と存在しない言語(英語など)があるが、存在しない言語には複数形があり、それで数えられるかどうかを表現しており、名詞自体に性質の情報が含まれている。複数形や助数詞は、未知の(初めて知った)名詞を理解するためのヒントになっている。

--

--

Couger Team
Couger
Editor for

We develop next generation interface “Virtual Human Agent” and XAI(Explainable AI).