讀書心得- AI 3.0 (二)

Vincent Chen-WS
Vincent Chen
Published in
53 min read2 days ago

Artificial Intelligence A Guide for Thinking Humans

四川科學技術出版社,2021年2月出版,作者: 梅拉妮·米歇爾,Copyright © 2019

第一部分 若想對未來下注,先要厘清人工智慧為何仍然無法超越人類智慧

人工智慧流派大變遷

1.人工智慧的源頭,追尋什麼是真正的智慧: “人工智慧”一詞由約翰·麥卡錫(John McCarthy)提出,其目標是“真正的”智慧,而非“人工的”智慧。

2.符號人工智慧,無須構建類比大腦運行的程式: 符號人工智慧最初是受到數學邏輯以及人們描述自身思考過程的方式的啟發,在人工智慧領域發展的最初30年裡佔據了主導地位,以專家系統最為著名。

3.亞符號人工智慧,從神經科學角度捕捉無意識思考: 亞符號人工智慧從神經科學中汲取靈感,試圖捕捉隱藏在“快速感知”(fast perception)背後的無意識思考過程。

4.聯結主義崛起,神經網路再次流行: 聯結主義認為:智慧的關鍵在於構建合適的計算結構,並從資料或現實世界中學習。

5.機器學習,拉開下一個人工智慧大變革舞臺的序幕: 基於統計學和概率論,研究者開發了一系列使電腦從資料中學習的方法,並形成了人工智慧領域的一門分支學科。

6.深度學習,人工智慧的春天再一次百花盛開 : 從IBM的深藍到沃森再到AlphaGo,統稱為深度學習的人工智慧方法已經成了主流的人工智慧範式。

從起源到遭遇寒冬,心智是人工智慧一直無法攻克的堡壘

對於人類智慧,智商(IQ)是在單一尺度上衡量的,但我們也會探討智慧的不同維度,如情感、語言、空間、邏輯、藝術、社交等。因此,智慧的定義可能是二元的(一個物體是或不是智慧的)、在一個連續統上的(一個物體比另一個物體更智慧),或者是多維的(一個人可以具有高語言智慧和低情感智慧)。確實,“智慧”這個詞語是一個滿載的手提箱,而拉鍊就在隨時可能撐破的邊緣上。

近日主流的人工智慧研究範式,那就是深度學習,其工具就是深度神經網路(deep neural network,DNN)。人工智慧是一個包括廣泛研究方法的領域,其目標是創造具有智慧的機器,而深度學習只是實現這一目標的一種方法。深度學習本身是機器學習領域眾多研究方法中的一種,後者又是人工智慧的一個子領域,著重關注機器從資料或自身的“經驗”中進行學習。

感知機,依託DNN的亞符號人工智慧(Subsymbolic AI: Perceptrons)

符號人工智慧最初是受到數學邏輯以及人們描述自身意識思考過程的方式的啓發。相比之下,亞符號人工智慧方法則從神經科學中汲取靈感,並試圖捕捉隱藏在所謂的“快速感知”背後的一些無意識的思考過程,如識別人臉或識別語音等。與之相反,一個亞符號人工智慧程式本質上是一堆等式 — — 通常是一大堆難以理解的數字運算。此類系統被設計爲從數據中學習如何執行任務。亞符號、受大腦啓發的人工智慧程式的一個早期例子是感知機,它由心理學家弗蘭克·羅森布拉特於20世紀50年代末提出。感知機是人工智慧的一個重要里程碑,同時也催生了現代人工智慧最成功的工具 — — DNN。

感知學習演算法,無法重現人腦的湧現機制

羅森布拉特的觀點是:感知機應該通過條件計算(conditioning)來學習。這是受到了行爲主義心理學家伯勒斯·斯金納(Burrhus F. Skinner)的啓發,斯金納通過給老鼠和鴿子以正向和負向的強化來訓練它們執行任務,羅森布拉特認爲感知機也應該在樣本上進行類似的訓練:在觸發正確的行爲時獎勵,而在犯錯時懲罰。

如今,這種形式的條件計算在人工智慧領域被稱爲監督學習(supervised learning)。在訓練時,給定學習系統一個樣本,它就產生一個輸出,然後在這時給它一個“監督信號”,提示它此輸出與正確的輸出有多大偏離,然後,系統會根據這個信號來調整它的權重和閾值。監督學習通常需要大量的正樣本和負樣本。每個樣本都由人來標記其類別,這些標記將被用作監督信號。

用於訓練系統的正負樣本,被稱爲“訓練集”(training set),剩餘的樣本集合,也就是“測試集”(test set),用於評估系統在接受訓練後的表現性能,以觀察系統在一般情況下,而不僅僅是在訓練樣本上回答的正確率。

羅森布拉特等人證明瞭感知機網絡能夠通過學習執行相對簡單的感知任務,而且羅森布拉特在數學上證明瞭:對於一個特定(即便非常有限)的任務類別,原則上只要感知機經過充分的訓練,就能學會準確無誤地執行這些任務。

感知機是一條死胡同

麻省理工學院的明斯基((Marvin Minsky)和佩珀特(Seymour Papert)指出,如果一個感知機通過添加一個額外的模擬神經元“層”來增強能力,那麼原則上,感知機能夠解決的問題類型就廣泛得多。帶有這樣一個附加層的感知機叫作多層神經網路。多層神經網路構成了許多現代人工智慧技術的基礎。

看似容易的事情其實很難

明斯基指出,事實上,對人工智慧的研究揭示了一個悖論:“看似容易的事情其實都很難。”人工智慧計算機的最初目標是:計算機能夠以自然語言與我們進行交談,描述它們通過攝像頭“眼睛”看到的事物,在看到幾個例子之後就可以學會新的概念。這些小孩子做起來都很容易的事情,對人工智慧來說卻是比診斷複雜疾病、在國際象棋和圍棋中擊敗人類冠軍,以及解決複雜代數問題等更加難以實現的事情。正如明斯基所言:“總的來說,我們完全不清楚我們的心智最擅長什麼。”

多層神經網絡,識別編碼中的簡單特徵

網絡是以多種方式相互連接的一組元素的集合。我們都對社交網絡很熟悉,社交網絡的元素是人,而計算機網絡中的元素自然是計算機。在神經網絡中,這些元素是模擬神經元,類似於我在前一章中描述的感知機。

通常情況下我們很難提前知道,對於一個給定的任務,一個神經網絡到底需要多少層隱藏單元,以及一個隱藏層中應該包含多少個隱藏單元纔會表現更好,大多數神經網絡研究人員採用試錯的方式來尋找最佳設置。

人工智慧:狹義和通用,弱和強

2015年Facebook創始人馬克·紮克伯格(Mark Zuckerberg)宣佈:“我們未來5~10年的目標之一是讓人工智慧在所有主要的人類感知領域,如視覺、聽覺、語言和一般認知能力上基本超越人類水準。

人工智慧哲學家文森特·穆勒(Vincent Müller)和尼克·波斯特洛姆在2013年發佈實施的一項針對人工智慧研究人員的調查顯示:許多人認爲人類水準的人工智慧在2040年之前出現的可能性爲50%。

通用人工智慧是人工智慧領域研究最初的目標,但後來研究者發現實現這一目標比預期要困難得多。隨著時間的推移,人工智慧領域的工作開始聚焦於特定的、定義明確的任務,如語音識別、下棋、自動駕駛等。

人工智慧的四大開拓者”的麥卡錫、明斯基、艾倫·紐厄爾(McCarthy, Minsky, Allen Newell, and)和西蒙(Herbert Simon)曾經會面,並對未來做出了一些規劃,而且不知出於什麼原因,這4個人開完會後都對該領域持極大的樂觀態度。

人工智慧是在模擬思考,還是真的在思考

英國數學家艾倫·圖靈,於1950年發表的論文《計算機器與智能》(Computing Machinery and Intelligence)中提出了這樣一個問題:“當我們問‘機器能思考嗎?’,我們到底是要表達什麼意思?”在提出著名的“模仿遊戲”(imitation game,現在稱爲圖靈測試)之後,圖靈列出了對一臺實際會思考的機器之前景的9條可能的反對意見,並試圖反駁這9條意見。

只有當一臺機器能“感受”事物,並知道自己的行爲和感覺,即具有意識時,我們才能認爲它是真正在思考;但是,沒有一臺機器能夠做到這點,因此,沒有一臺機器能夠真正地思考。我認爲關於思考,存在一種永遠無法被計算機完全模仿的人類特性。

奇點2045,非生物智慧將比今天所有人類智慧強大10億倍

庫茲韋爾不僅是谷歌工程總監,還是奇點大學的聯合創始人,奇點大學的另一位聯合創始人是未來主義派企業家彼得·戴曼迪斯(Peter Diamandis)。奇點大學是一家“跨人文主義”智庫、創業公司孵化器,有時還爲技術精英舉辦夏令營。“奇點”一詞的含義爲:“具有非凡影響的一個獨特事件,特別是,一件能夠分裂人類歷史結構的事件。”對於庫茲韋爾來說,這一獨特的事件就是人工智慧超越人類智慧。庫茲韋爾採用了智能爆炸的想法作爲他的起點,並提升了它的科幻強度,從人工智慧到納米科學,然後到虛擬現實和“大腦上傳”,所有這些預測都以德爾斐神諭般冷靜、自信的語氣,像是看著日曆指著具體實現日期的方式被敘述出來。庫茲韋爾將奇點的時間設定為2045年。庫茲韋爾的所有預測都是基於“指數級增長”的概念。

你會像卡普爾一樣,對庫茲韋爾的預測持懷疑態度嗎?如果你持懷疑態度,那麼庫茲韋爾會說:“那是因爲你不理解指數。我和一個批評家的意見分歧的核心常常在於,他們會說,你低估了人類大腦逆向工程的複雜性或生物科學的複雜性,但我不這麼認爲,我認爲是他們低估了指數級增長的力量。”

摩爾定律:計算機領域的指數增長

對於庫茲韋爾來說,計算機時代爲我們的指數型寓言提供了一個現實世界的樣板。庫茲韋爾指出:如果這種趨勢繼續下去(他相信會如此),一臺1 000美元的計算機將在2023年左右達到人腦的運算能力,也就是每秒1016次計算。在庫茲韋爾看來,到那時,創建人類水準的人工智慧將只是對大腦進行逆向工程的問題了。

神經工程,對大腦進行逆向工程

對大腦進行逆向工程意味著要對其運轉機理有充分的瞭解,從而能夠複製大腦,或者說,至少可以在計算機中運用大腦的基本原理並複製其智能。

庫茲韋爾總結了他在書中提出的論點:計算能力、神經科學和納米技術的指數級進步,這些方面合在一起將會使大腦的逆向工程成爲可能。

侯世達是一位在奇點懷疑論和擔憂論之間徘徊的思想家,這讓我很意外。他很困擾,他曾跟我說過,庫茲韋爾的書在最滑稽的科幻場景裏混入了非常真實的東西。

強弱人工智慧之爭

儘管深度學習近年來取得了很大的成功,但和迄今爲止所有的人工智慧實例一樣,這些程式仍然只是所謂的“狹義”或“弱”人工智慧的例子。此處的“狹義”和“弱”是用來形容那些僅能執行一些狹義任務或一小組相關任務的系統。AlphaGo可能是世界上最好的圍棋玩家,但除此之外什麼也做不了,它甚至不會玩跳棋、井字棋等遊戲。谷歌翻譯可以把英文的影評翻譯成中文,但它無法告訴你影評者是否喜歡這部電影,更不用說讓它自己來觀看和評論電影了。

“狹義”和“弱”人工智慧往往是與“強”“人類水準”“通用”或“全面”人工智慧(有時候也被稱作AGI,即通用人工智慧)對比而言的,後者即那種我們在電影中常看到的,可做我們人類所能做的幾乎所有事情,甚至更多事情的智慧。通用人工智慧是人工智慧領域研究最初的目標,但至今還沒有創建出任何能夠在通用意義上被稱爲“智慧”的人工智慧程式。該領域最近的一項研究表明:“一堆狹義智慧永遠也不會堆砌成一種通用人工智慧。通用人工智慧的實現不在於單個能力的數量,而在於這些能力間的整合。”

我們需要仔細研究一下獨特的人類智慧背後的一些關鍵能力,比如感知、語言、決策制定、常識推理和學習等。

第二部分 視覺識別:始終是“看”起來容易“做”起來難

1.ConvNets是當今計算機視覺領域深度學習革命的驅動力

儘管卷積神經網絡(ConvNets)被廣泛譽爲人工智慧領域的下一個大事件,但它早在20世紀80年代便由法國計算機科學家楊立昆提出。

2. ImageNet競賽被看作計算機視覺和人工智慧進步的關鍵標誌

普林斯頓大學年輕的計算機視覺教授李飛飛尤其關注這一目標。李飛飛有一個新的想法 — — 根據詞網(WordNet)中的名詞構建一個圖像數據庫,使其中每個名詞都與大量包含該名詞所表示事物的圖像相關聯,因此ImageNet的構想誕生了。

圖4–1 在這張照片中,你看到了什麼

觀察圖4–1,告訴我你看到了什麼。你可能看到:一位女士在撫摸一條狗或者一名士兵在撫摸一條狗;或者是一條狗在歡迎一名剛從戰場上回來的戰士,還有鮮花和寫有“歡迎回家”字樣的氣球,士兵的臉上表現出了複雜的情感,這條狗則開心地搖著尾巴。

當你觀察這張圖片時,在最基本的層面上,你會觀察到圖片上的油墨,如果你看的是電子版,那麼你會看到螢幕上的圖元。不知爲何,你的眼睛和大腦能夠通過獲取這些原始資訊,在短短幾秒鐘內將其轉化爲一個包含活體生命、物體、關係、地點、情感、動機、過去和未來行爲的詳細的故事。我們觀看、觀察、理解,最重要的是,我們知道應該忽略哪些無關緊要的資訊。照片中還有很多與我們提取出來的故事並不相關的因素:地毯上的圖案、從士兵揹包上垂下來的繩帶、掛在揹包肩帶上的哨子,以及士兵頭髮上的髮夾。

我們人類幾乎可以在瞬間完成如此大量資訊的處理,並且,我們很少會意識到我們正在做這些資訊處理以及我們是如何做到的。除非一個人先天失明,否則視覺處理會在各種抽象層面上支配大腦。

當然,以這種方式來描述照片、視頻或照相機中的實時視頻流中內容的能力,也是我們要求通用的、人類水準的人工智慧所首先要具備的素質之一。

看與做

兼具觀看和觀察的視覺,原來是所有“容易”的事情裏最難的。

描述視覺輸入的一個先決條件是目標識別(object recognition),也就是將一張圖像中的一組特定圖元識別爲一個特定目標類別,如“女士”“狗”“氣球”或“筆記本電腦”。目標識別對我們人類來說是可以非常迅速和輕而易舉就能完成的事情,所以,它看起來對計算機來說也不應該會是一個特別困難的問題,直到人工智慧研究者真正試圖讓計算機去完成它,才發現事實恰恰相反。

圖4–2 目標識別:對人類來說很簡單,對計算機來說很難

深度學習革命:不是複雜性,而是層深

深度學習中的“深度”並不是指神經網絡所學習內容的複雜性,而僅僅是指網絡本身的層數。

研究人員發現,最成功的DNN是那些模仿了大腦的視覺系統結構的網絡。傳統的多層神經網絡最初是受大腦啓發,但是它們的結構卻與大腦結構非常不同。與之相反,主導深度學習的DNN則是直接根據神經科學中關於大腦的相關研究發現進行建模的。

模擬大腦,從神經認知機到ConvNets

兩位神經科學家就是:大衛·胡貝爾(David Hubel)和托爾斯滕·威塞爾(Torsten Wiesel)。他們後來因發現了貓和靈長類動物(包括人類)視覺系統中的層次化結構(hierarchical organization),以及解釋了視覺系統如何將視網膜上的光線轉換爲人腦可辨識的信息而獲得諾貝爾獎。

卷積神經網絡(ConvNets)

ConvNets實際上並不是很新,最初是在20世紀80年代由法國計算機科學家楊立昆提出,而他則是受到了福島提出的神經認知機的啓發。楊立昆是ConvNets之父,紐約大學終身教授,深度學習三巨頭之一,楊立昆是他給自己起的中文名字。

大腦識別模式

當人的眼睛聚焦于一個場景時,眼睛接收到的是由場景中的物體發出或其表面反射的不同波長的光,這些光線啟動了視網膜上的細胞,本質上說是啟動了眼睛後面的一個神經元網格。這些神經元通過位於眼睛後面的纖長的視覺神經來交流彼此的啟動資訊並將其傳入大腦,最終啟動位於大腦後部視皮層的神經元。視皮層大致是由一系列按層排列的神經元組成,就像婚禮蛋糕那樣一層一層堆在一起,每一層的神經元都將其啟動資訊傳遞給下一層的神經元。

ConvNets識別模式

ConvNets由一系列模擬神經元層組成,在這裡,我還是將這些類比神經元稱為單元。每層中的單元為下一層的單元提供輸入,當一個ConvNets處理一張圖像時,每個單元都有一個特定的啟動值 — — 根據單元的輸入及其連接權重計算所得的真實的數值。ConvNets的輸入是一幅圖像,即與圖像每個圖元的顏色和亮度一一對應的一個數值組。它的最終輸出是網路對於每種類別(狗或貓)的置信度(0~100%)。我們的目標是讓網路學會對輸入圖像所屬的正確類別輸出高置信度,對其他類別輸出低置信度。這樣,網路將瞭解輸入圖像的哪些特徵對完成這項任務最有幫助。

機器視覺智慧的3個致命短板

如今,機器智慧在ImageNet上的目標識別能力是否已經超越人類的爭論眾說紛紜。這一論斷是基於人類的錯誤率約為5%,而機器的錯誤率接近2%的一個聲明,這難道無法證明電腦在這項任務上的表現比人類更好嗎?答案是否定的。

第一,當你讀到“一台機器正確地識別了目標”時,你會認為,給定一張籃球的圖像,機器會輸出“籃球”這一結果;但在ImageNet競賽中,正確地識別僅意味著正確類別出現在機器給出的前5個輸出類別中。如果給機器輸入一張籃球的圖像,機器按順序輸出的是門球、比基尼、疣豬、籃球和搬家貨車,即可被判定是正確識別。

第二,對於“人類在ImageNet上的識別錯誤率約為5%”這個聲明,其中的“人類”一詞實際上表述得並不是非常準確,因為這一結果來自被試只有一個的實驗。

第三, 當一個人說照片中有一條狗時,我們認為這是因為人類在圖像中實際上看到了一條狗,但是如果ConvNets“說”圖像中有狗時,也許只是圖像中有一些其他物件,如網球、飛盤、被叼住的鞋子,這些物件在訓練圖像中往往與狗相關,而ConvNets在識別這些物件時就會假設圖像中有一條狗。這類關聯的結果往往會愚弄程式,使其做出誤判。

人類與機器學習的關鍵差距 — 人工智慧仍然無法學會自主學習

孩童不是被動地學習,而是主動提出問題,他們想要瞭解自己感興趣的事物的資訊,他們會推斷抽象概念的含義及其聯繫,並且最重要的是,他們積極地探索這個世界。

雖然ConvNets使用反向傳播演算法從訓練樣本中獲取參數(即權重),但這種學習是通過所謂的超參數(hyperparameters)集合來實現的,超參數是一個涵蓋性術語,指的是網絡的所有方面都需要由人類設定好以允許它開始,甚至“開始學習”這樣的指令也需要人類設定好。超參數包括:網絡中的層數、每層中單元感受野的大小、學習時每個權重變化的多少(被稱爲“學習率”),以及訓練過程中的許多其他技術細節。設置一個ConvNets的過程被稱爲“調節超參數”,這其中需要設置許多參數值以及做出許多複雜的設計決策,而且這些設置和設計會以複雜的方式相互作用,從而影響網絡的最終性能。此外,對每個新的訓練任務,網絡的這些設置和設計必須被重新安排。

依賴於收集到的大量已標註的數據來進行訓練是深度學習不同於人類學習的另一個特點。

長尾效應常常會讓機器犯錯

所謂的“長尾”,就是指人工智慧系統可能要面臨各種可能的意外情況。圖6–1給出了自動駕駛汽車在一天的行駛期間可能會遇到的各種假設情況,這可以很好地說明這個問題。

圖6–1 自動駕駛汽車可能遇到的情況(從上到下按可能性從高到低排序,以說明長尾效應的存在)

人工智慧在現實世界的大多數領域中都會面對這種長尾效應:現實世界中的大部分事件通常是可預測的,但仍有一長串低概率的意外事件發生。如果我們單純依靠監督學習來提升人工智慧系統對世界的認識,那麼就會存在一個問題:尾部的情況並不經常出現在訓練數據中,所以當遇到這些意外情況時,系統就會更容易出錯。

一種常見的解決方案是:讓人工智慧系統在少量標註數據上進行監督學習,並通過“無監督學習”(unsupervised learning)來學習其他所有的內容。無監督學習是指在沒有標記數據的情況下學習樣本所屬類別的一系列方法。常見的例子包括:基於相似度來對樣本進行分類的方法,或者通過與已知類別進行對比來學習新類別的方法。

楊立昆承認:“無監督學習是人工智慧的暗物質。”換句話說,對於通用人工智慧,幾乎所有學習都應該在無監督方式下進行,然而,還沒人提出過成功進行無監督學習所需的各種演算法。

人類具有一種當前所有的人工智慧系統都缺乏的基本能力:運用常識。我們擁有關於這個世界的體量龐大的背景知識,包括物質層面及社會層面。我們對現實世界中的事物會如何行動或變化有充分的瞭解,無論它是無生命的還是有生命的,我們廣泛地運用這些常識來決定如何在特定情況下採取行動。

許多人認爲,除非人工智慧系統能像人類一樣擁有常識,否則它們將無法在複雜的現實世界中實現完全自主。

機器“觀察”到的東西有時與我們截然不同

機器學到的是它在資料中觀察到的東西,而非我們人類可能觀察到的東西。如果訓練資料具有統計性關聯,即使這些關聯與機器要解決的任務無關,機器也會很樂意學習這些內容,而不是學習那些我們希望它學習的內容。如果機器在具有相同統計性關聯的新資料上進行測試,它將表現得像是已經成功地學會了如何完成這一任務;然而,機器在其他資料上運行可能會出乎意料地失敗,就像威爾的網路在無模糊背景的動物圖像上的表現一樣。

有偏見的人工智慧

人工智慧應用中的偏見問題近年來引起了相當多的關注。

人工智慧內心的黑暗秘密以及我們如何愚弄它

《麻省理工科技評論》(MIT Technology Review)雜誌將這種不可理解性稱爲“人工智慧內心的黑暗祕密”。令人擔憂的是:如果我們不理解DNN如何解答問題,我們就無法真正相信它們,或預測它們會在哪種情況下出錯。

“可解釋的人工智慧”這個新領域有多種不同的叫法,比如“透明的人工智慧”或“可解釋的機器學習”。這個領域的目標是研究如何讓人工智慧系統,尤其是深度網絡,以人類能夠理解的方式解釋其決策過程。該領域的研究人員已經提出了多種聰明的方式來實現對一個給定ConvNets學習到的特徵的可視化,並且,在某些情況下可以確定輸入的哪些部分對輸出決策起決定作用。可解釋的人工智慧是一個正在快速發展的領域,但如何讓深度學習系統能夠順利地按照人類能理解的方式來解釋自身仍然前景未明。

這些網絡到底學習了什麼?尤其是,它們學習了什麼使得自己能如此輕易地被愚弄?或者更重要的問題是:當我們認爲這些網絡已經真的學到了我們試圖教給它們的概念時,我們是在自欺欺人嗎?

我曾聽到某些人工智慧研究人員爭辯說,人類也一樣容易受到我們自己的對抗樣本的影響,比如視覺錯覺。就像AlexNet會將校車分類爲“鴕鳥”一樣,人類則更容易犯感知錯誤,我們人類易犯的錯誤與ConvNets易犯的完全不同,我們識別日常場景中對象的能力已經進化得非常穩定了,因爲我們的生存就依賴於此。

克盧恩(Jeff Clune)做了一個非常尖銳的比喻:“很多人好奇深度學習究竟是真正的智慧還是‘聰明的漢斯’。”漢斯是20世紀初德國的一匹馬,其主人聲稱它可以進行算術計算並能聽懂德語。這匹馬通過用蹄子敲擊的次數來回答諸如“15除以3等於多少”這類問題。在“聰明的漢斯”成爲國際明星後,一項詳細調查最終證實這匹馬並沒有真正理解給它的問題或數學概念,而只是通過敲擊來回應提問者給出的微妙且常人難以察覺的提示。“聰明的漢斯”已成爲對表現出理解力但實際上只是對訓練員給出的別人難以發現的提示做出反應的個體或程式的隱喻。

深度學習展現的是真正的理解,還是一個計算型的“聰明的漢斯” — — 只是對數據中的表面線索進行響應?這是目前人工智慧界在激烈爭論的一個話題,而研究人員並未在真正的理解的定義上達成共識,更是加劇了這一爭論。

難以避免的長尾效應

知名的深度學習專家本吉奧說:“實事求是地講,我們不可能對世界上的所有事物都進行標注,並一絲不苟地把每一個細節都解釋給電腦聽。”這一情況由於長尾效應的存在而進一步惡化:人工智慧系統可能要面臨各種可能的意外情況,自動駕駛汽車在一天的行駛期間可能會遇到的各種假設情況的可能性可以很好地說明這一現象。遇到紅色交通信號燈或停車標誌等都是常見的情況,被評定為具有高可能性;中等可能性的情況包括遇到碎玻璃或者風吹過來的塑膠袋;不太常見的情況是自動駕駛汽車遇到了被水淹沒的道路或被雪遮擋住的車道標誌,等等。人工智慧在現實世界的大多數領域中都會面對這種長尾效應:現實世界中的大部分事件通常是可預測的,但仍有一長串低概率的意外事件發生。如果我們單純依靠監督學習來提升人工智慧系統對世界的認識,那麼就會存在一個問題:尾部的情況並不經常出現在訓練資料中,所以當遇到這些意外情況時,系統就會更容易出錯。

確保價值觀一致,構建值得信賴、有道德的人工智慧

一個很有吸引力的類比:很快人工智慧就會如電能一樣,儘管看不到,但對電子設備來說卻非常必要。電能與人工智慧的一個主要的區別在於,電能在被廣泛商業化之前就已經被充分認識,我們非常瞭解電能的功用,而對於如今許多人工智慧系統的情況,我們卻沒有足夠的認識。

這將帶來所謂的人工智慧大權衡(great AI trade-off)。我們是應該擁抱人工智慧系統,利用其能力來改善我們的生活,甚至幫助拯救生命,並且允許這些系統被更加廣泛地使用呢,還是考慮當下人工智慧存在難以預見的錯誤、易受偏見影響、易被駭客攻擊以及缺少透明度等特點,應該更謹慎地使用人工智慧來制定決策?對不同的人工智慧應用,人類需要在多大程度上參與其中?為充分信任人工智慧並使其自主工作,我們應該對人工智慧系統提出哪些要求?

人工智慧如何監管以及自我監管

圍繞人工智慧的問題,比如可信度、可解釋性、偏見、易受攻擊性和使用過程中出現的道德問題,與技術問題一樣,都是牽涉社會和政治方面的問題。於是,圍繞這些問題的討論有必要接納持有不同觀點和具有不同背景的人們。簡單地將監管的職責交給人工智慧從業者,就像將其完全交給政府機構一樣,都是不明智的。

歐盟議會在2018年頒佈了一項關於人工智慧的法規,有些人稱之為“解釋權”。這項法規要求,在“自動決策制定”的情況下,任何一個影響歐盟公民的決策都需要提供其中所涉及的與邏輯有關的有意義資訊,並且這些資訊需要使用清晰明瞭的語言,以簡潔、透明、易懂和易於訪問的形式來溝通和傳達。

,這打開了有關解釋問題的閘門。什麼叫“有意義”或“與邏輯有關”的資訊?這一法規是否禁止在制定對公民有所影響的決策時使用難以解釋的深度學習方法?

我個人的觀點是,人們對超級智慧可能帶來的風險給予了太多關注,而對於深度學習缺乏可靠性和透明性,及其易受攻擊性的關注則遠遠不夠。

創建有道德的機器

關於機器道德的最著名的討論來自以撒·阿西莫夫(Isaac Asimov)的科幻小說,他在小說中提出了著名的“機器人三定律”

第一定律:機器人不得傷害人類個體,或者對人類個體將遭受的危險袖手旁觀;

第二定律:機器人必須服從人類給予它的命令,當該命令與第一定律衝突時例外;

第三定律:機器人在不違反第一、第二定律的情況下,要盡可能地保護自己。

人工智慧程式師面臨的挑戰是,如何確保人工智慧系統的價值觀與人類保持一致。可是,人類的價值觀又是什麼?假設存在社會共用的普世價值有任何意義嗎?

新機器人三定律”

1.有用的人工智慧: 在考慮人工智慧在我們社會中的作用時,我們很容易把注意力集中在不利的一面,但是,有必要記住,人工智慧系統已經為社會帶來了巨大好處,並且它們有潛力發揮更大的作用。

2.可解釋的人工智慧: 在人工智慧“自動決策制定”的情況下,任何一個影響公民的決策都需要提供其中所涉及的與邏輯有關的有意義資訊,並且這些資訊需要使用清晰明瞭的語言,以簡潔、透明、易懂和易於訪問的形式來溝通和傳達,這打開了有關解釋問題的閘門。

3.可信的人工智慧: 在賦予電腦“道德智慧”方面的進展不能與其他類型智慧的進展分開,真正的挑戰是創造出能夠真正理解它們所面臨的場景的機器。換句話說,可信任的道德理性的一個先決條件是通用的常識,而這,正如我們所見,即使在當今最好的人工智慧系統中也是缺失的。

第三部分 遊戲與推理:開發具有更接近人類水準的學習和推理能力的機器

強化學習,讓AlphaGo名聲大噪的幕後推手

在最純粹的形式下,強化學習不需要任何被標記的訓練樣本。代替它的是一個智慧體,即學習程式,在一種特定環境(通常是電腦模擬環境)中執行一些動作,並偶爾從環境中獲得獎勵,這些間歇出現的獎勵是智慧體從學習中獲得的唯一回饋。

強化學習的目標是:讓智慧體自己學習並獲得能對即將到來的獎勵進行更好的預測的值,前提是智慧體在採取相關行動後一直在做正確的選擇。正如我們將看到的,習得給定狀態下特定動作的值通常需要經過許多次的試錯。儘管電腦程式可能不會對一個吻或一句熱情的“你是最棒的”做出反應,但是它可以被設置為能夠對與這種讚美等價的獎勵做出回應,比如向機器的記憶體中添加正數,然後演算法會告訴機器如何從自己的經驗中學習。

強化學習的實踐者幾乎都會構建機器人和環境的模擬,然後在模擬世界而非在現實世界中執行所有的學習片段,然而,環境愈複雜和不可預測,將機器人在模擬中學到的技能轉移到現實世界的嘗試就愈加難以成功。迄今為止強化學習最大的成功不是在機器人領域,而是在那些能夠在電腦上進行完美類比的領域,特別是遊戲領域。

學會玩遊戲,智慧究竟從何而來

2010年,年輕的英國科學家兼遊戲愛好者戴米斯·哈薩比斯(Demis Hassabis)與他的兩位密友在倫敦創辦了一家名為DeepMind的科技公司。哈薩比斯是現代人工智慧界中一個有趣的傳奇人物,他是一個在6歲前就獲得過國際象棋比賽冠軍的神童,15歲時開始專職編寫電子遊戲程式,22歲時創辦了自己的電子遊戲公司。除了創業活動,哈薩比斯還在倫敦大學學院獲得了認知神經科學博士學位,以進一步實現他構建受人腦啟發的人工智慧的目標。哈薩比斯和他的同事創立DeepMind是為了解決人工智慧領域真正根本的問題。DeepMind團隊將電子遊戲視為解決這些問題的絕佳場景,這也許並不令人感到意外。在哈薩比斯看來,電子遊戲像是現實世界的縮影,但更純淨並且更易被約束。

大多數人,包括最好的棋手,只能考慮幾種可能,即在決定走哪步棋之前只能前瞻幾步。現在,人們通常認為,超人類的國際象棋遊戲程式並不需要通用智慧,而且從任何意義上來說,深藍都不智能:除了下象棋之外,它什麼都做不了,對於玩一局遊戲且贏得這局遊戲的意義,它也沒有任何概念。我曾聽一位演講者打趣道:“深藍確實打敗了卡斯帕羅夫,但它從未從中獲得任何樂趣。”

圍棋,規則簡單卻能產生無窮的複雜性

僅僅20年之後,AlphaGo就通過深度Q學習學會了圍棋,並在一場五局三勝制的比賽中擊敗了世界上最出色的圍棋棋手之一 — — 李世石。哈薩比斯指出:“頂級圍棋棋手區別于常人的東西是他們的直覺,我們在AlphaGo中所做的就是將這種所謂的直覺引入神經網路中。”

遊戲只是手段,通用人工智慧才是目標

AlphaGo所有的版本除了下圍棋,其他什麼也不會,即便是其最通用的版本AlphaGo Zero,也不是一個同時學會了圍棋、國際象棋和日本將棋的獨立系統,每種遊戲都有自己單獨的ConvNets,對每一種遊戲,網路都必須從頭開始進行訓練。與人類不同的是,這些程式中沒有一個能夠將其在一款遊戲中學到的知識遷移到其他遊戲中,來幫助其學習不同的遊戲。

在機器學習領域,有一個充滿前景的學習方法,那就是“遷移學習”(transfer learning),它是指一個程式將其所學的關於一項任務的知識進行遷移,以幫助其獲得執行不同的相關任務的能力。對於人類來說,遷移學習是自動進行的,比如,我在學會打乒乓球之後,就能將其中的一些技巧進行遷移來幫助我學習打網球和羽毛球;人類這種從一種任務到另一種任務的能力遷移看起來毫不費勁;我們對所學知識進行泛化的能力正是思考的核心部分。因而,我們可以說,遷移學習的本質就是學習本身。

除去思考“圍棋”,AlphaGo沒有“思考”

對於AlphaGo來說,儘管它在訓練期間下了數百萬盤棋,但是卻並沒有學會更好地“思考”除圍棋之外的其他任何事情。事實上,除了圍棋之外,它不具備任何思考、推理和規劃的能力。據我所知,它所學到的能力沒有一項是通用的,也沒有一項可以被遷移到任何其他任務上。AlphaGo是終極的“白癡天才”,甚至沒有表現出任何真正的智慧。對於人類來說,智慧的一個關鍵點並非在於能夠學習某一特定的技能,而在於能夠學會思考,並且可以靈活地將這種思考能力用於應對任何可能遇到的情況或挑戰,這也是我們希望孩子們能夠通過下國際象棋或圍棋學習到的真正技能。從這個意義上講,學校的國際象棋或圍棋俱樂部裡最低年級的小朋友都比AlphaGo聰明得多。

從遊戲到真實世界,從規則到沒有規則

然而,現實世界並不是如此清晰劃定的。侯世達指出:“‘狀態’這一概念在現實生活中根本不存在明確的定義。如果你仔細觀察現實生活中的各種情形,你會發現它們並不都像國際象棋或圍棋那樣具有條條框框的規則……現實世界中的各種情形根本就沒有邊界,你不知道情形之中是什麼,也不知道情形之外是什麼。”

像人一樣學會遷移

在機器學習領域,遷移學習是一個充滿前景的學習方法,它是指一個程式將其所學的關於一項任務的知識進行遷移,以幫助其獲得執行不同的相關任務的能力。對於人類來說,遷移學習是自動進行的,比如,學會打乒乓球之後,我們就能將其中的一些技巧進行遷移來幫助我們學習打網球和羽毛球;知道如何下西洋跳棋,也有助於我們學習國際象棋。

人類這種從一種任務到另一種任務的能力遷移看起來毫不費勁,我們對所學知識進行泛化的能力正是思考的核心部分。因而,我們可以說,遷移學習的另一種表達就是學習本身。與人類形成鮮明對比的是,當今人工智慧領域中的大多數學習演算法在相關的任務之間是不可遷移的。在這一點上,該領域離哈薩比斯所說的通用人工智慧仍然還有很遠的距離。儘管遷移學習是目前機器學習從業者最活躍的研究領域之一,但這方面的研究仍然處於初級階段。

第四部分 自然語言:讓計算機理解它所“閱讀”的內容

語言的微妙之處

語言常常是充滿歧義的,極度依賴語境,而且通常用語言溝通的各方需要具備大量共同的背景知識。與人工智慧的其他領域一樣,自然語言處理相關的研究在最初的幾十年集中在符號化的、基於規則的方法上,就是那種給定語法和其他語言規則,並把這些規則應用到輸入語句上的方法。這些方法並沒有取得很好的效果,看來通過使用一組明確的規則來捕捉語言的微妙是行不通的

語音辨識和最後的10%

自動語音識別(automatic speech recognition)是深度學習在自然語言處理中的第一個重大成就,並且我敢說,這是迄今爲止人工智慧在所有領域中取得的最重要的成就。自動語音識別是一項將口語實時轉錄成文本的技術。

包括我在內的許多人工智慧領域的研究者,過去都認爲人工智慧語音識別在沒有真正理解語言的情況下,永遠不可能達到如此高水準的性能表現,但事實證明我們錯了。

任何一個複雜的工程項目都適用一個著名的經驗法則:項目前90%的工作佔用10%的時間,而後10%的工作佔用90%的時間。我認爲這個規則也適用於許多人工智慧領域,比如自動駕駛汽車,當然也適用於語音識別。

對於語音識別來說,這最後的10%不僅包括處理噪聲、不熟悉的口音和不認識的單詞,還包括影響語音集成的語言的歧義和上下文的關聯性。最後這頑固的“10%”需要怎樣來解決呢?更多的數據?更多的網絡層?或者,這最後的“10%”需要要求系統真正理解講話人所說的話嗎?我傾向於最後這種觀點,但我之前已經錯過一次了。

理解語言,理解我們賴以生存的隱喻

理解語言,特別是理解其中隱含的部分,是人類智慧的一個基本部分。圖靈把他著名的圖靈測試,構造為一場關於語言之生成和理解的比賽,這並非偶然。

語言常常是充滿歧義的,極度依賴語境,而且通常用語言溝通的各方需要具備大量共同的背景知識。與人工智慧的其他領域一樣,自然語言處理相關的研究在最初的幾十年集中在符號化的、基於規則的方法上,就是那種給定語法和其他語言規則,並把這些規則應用到輸入語句上的方法。這些方法並沒有取得很好的效果,看來通過使用一組明確的規則來捕捉語言的微妙是行不通的。自動語音辨識是深度學習在自然語言處理中的第一個重大成就,並且我敢說,這是迄今為止人工智慧在所有領域中取得的最重要的成就。

在深度網路開始在電腦視覺和語音辨識上“得心應手”後不久,自然語言處理的研究者就開始試著把它們應用於情感分析。

機器翻譯,仍然不能從人類理解的角度來理解圖像與文字

自動翻譯的早期發展得益于數學家沃倫·韋弗在1947年的大力推動,他曾這樣描述自己的想法:“人們會自然而然地想到翻譯的問題是否可以被視為密碼學中的一個問題。當我看一篇用俄語寫就的文章時,我想說,這其實是用英語寫的,只不過它被編碼成了一些奇怪的符號,我現在需要解碼它。”

與人工智慧中經常出現的情況一樣,這種解碼比人們最初預期的要更困難。

統計機器翻譯依賴於從資料而非從人類制定的規則中學習,訓練資料由大量成對的句子組成:每對句子中的第一個句子來自來源語言,第二個句子是將第一個句子用目的語言翻譯後的結果。

谷歌翻譯可能是目前最為廣泛使用的自動翻譯程式,從2006年推出起,一直在使用這種統計機器翻譯方法,直到2016年,谷歌研究人員稱他們研發了一種更加優越的基於深度學習的翻譯方法,也就是神經機器翻譯。之後不久,所有最先進的機器翻譯程式都採用了神經機器翻譯方法。

機器翻譯,正在彌補人機翻譯之間的差距

閱讀這些翻譯,就像聽一個才華橫溢但又頻頻出錯的鋼琴家演奏一段我們熟悉的旋律,這段旋律總體來說是可辨認的,但又是支離破碎的,令人不舒服,這首曲子在短時爆發時表現得很優美,但卻總被刺耳的錯誤音符打斷。

我仍然認為機器翻譯想要真正達到人類翻譯員的水準,還有很長的路要走,除了在一些特定的細分領域中。

對於機器翻譯來說,主要的障礙在於:與語音辨識系統的問題一樣,機器翻譯系統在執行任務時並沒有真正“理解”它們正在處理的文本。

在翻譯以及語音辨識中,一直存在這樣的問題:為達到人類的水準,機器需要在多大程度上具備這種理解能力?侯世達認為:“翻譯遠比查字典和重新排列單詞要複雜得多……要想做好翻譯,機器需要對其所討論的世界有一個心理模型。”

一個編碼器-解碼器網路能夠簡單地通過接觸更大的訓練集以及構建更多的網路層,來獲得必要的心理模型和對現實世界的認識嗎?還是說需要通過一些完全不同的方法?這仍然是一個懸而未決的問題,也是在人工智慧研究群體中引發了激烈辯論的主題。

破解機器翻譯,攀登人工智慧的天梯

線上翻譯系統可以為人們提供全天候的即時翻譯服務,而且通常可以處理100多種不同的語言,但是,其水準仍然遠低於優秀的人類翻譯員。機器翻譯的原始方法依賴於人類指定規則的複雜集合,所以,它們相當脆弱,需要面對來自自然語言處理領域所面臨的所有挑戰。

從20世紀90年代開始,一種被稱為“統計機器翻譯”的新方法開始佔據主導地位,此方法依賴於從資料而非從人類制定的規則中學習。谷歌翻譯可能是目前最為廣泛使用的自動翻譯程式,使用的是一種更加優越的基於深度學習的翻譯方法,也就是神經機器翻譯。

但別忘了,容易的事情做起來難。

我們的終極目標是:讓電腦真正理解我們所問的問題的含義。

雖然機器的自然語言處理已經取得了長足的進步,但我不相信機器將能夠完全理解人類的語言,除非它們具備人類所擁有的常識。自然語言處理系統正在我們的生活中變得越來越普遍 — — 轉錄話語、分析情感、翻譯文本、回答問題。是不是無論這些系統的性能有多強,只要它們缺乏和人類相似的理解方式,就會不可避免地導致這些系統的脆弱、不可靠、易受攻擊等方面的問題?沒有人知道答案,因此,我們都該停下來好好想一想。

在本書的最後幾章中,我們將會探討“常識”對人類而言究竟意味著什麼,更具體地說:人類用什麼樣的心理機制來理解世界。我還將描述人工智慧研究人員為了給機器植入這種理解和常識所做的一些嘗試,以及這些方法在創造能夠克服“意義的障礙”的人工智慧系統方面已取得的進展。

閱讀理解的關鍵不僅在於“提取答案”,還在於“具備常識”

《星際迷航》或許給我們許多人都編織了一個夢想:能夠向電腦詢問任何事情,並且它可以做出準確、簡潔和有用的回應。如果你使用過當今任意一款人工智慧語音助手,如Siri、Alexa、Cortana、Google Now,你就會知道這個夢想還尚未實現 — — 這些系統並不能理解我們所問的問題的含義。

雖然電腦目前已經可以準確地轉述我們的請求,但我們的終極目標是:讓電腦真正理解我們所問的問題的含義。這本質上是一種閱讀理解任務,但目前電腦其實並不能完全讀懂一個特定文本中字裡行間的意思,也無法做到真正的推理,比起閱讀理解,電腦能做到的應該叫“答案提取”。答案提取對機器來說是一項很有用的技能,事實上,答案提取也正是Alexa、Siri以及其他數位助理軟體所需要做的:將接收到的問題轉換為一個搜尋引擎查詢序列,然後從搜索結果中提取答案。

“提問-回答”的話題一直是自然語言處理研究的一個重點。若想正確回答這些問題,不僅需要答案提取的技能,還需要具備自然語言處理和常識推理的集成能力,以及一些必要的背景知識。儘管深度學習已經在語音辨識、語言翻譯、情感分析及自然語言處理的其他領域取得了一些非常顯著的進展,但人類水準的語言處理能力仍然是一個遙遠的目標。

第五部分 常識 — — 人工智慧打破意義障礙的關鍵

無法逾越的人類智慧之火

人類天生具備一些核心知識,就是我們與生俱來的或很早就學習到的最為基本的常識。

1.直覺 : 由於我們人類是一種典型的社會型物種,從嬰兒時期開始我們逐步發展出了直覺心理:感知並預測他人的感受、信念和目標的能力。直覺知識的這些核心主體構成了人類認知發展的基石,支撐著人類學習和思考的方方面面。

2. 模擬 : 我們對於我們所遇到的情境的理解包含在我們在潛意識裡執行的心智模擬中,這種心智模擬同樣構成了我們對於那些我們並未直接參與其中的情境的理解,比如我們看到的、聽到的或讀到的。

3. 隱喻 : 我們通過核心物理知識來理解抽象概念。如果物理意義上的“溫暖”概念在心理上被啟動,例如,通過手持一杯熱咖啡,這會啟動更抽象、隱喻層面上的“溫暖”概念,就像評價一個人的性格的實驗那樣,反之亦然。

4. 抽象與類比 : 構建和使用這些心智模型依賴於兩種基本的人類本能:抽象和類比。抽象是將特定的概念和情境識別為更一般的類別的能力,類比在很多時候是我們無意識的行為,這種能力是我們抽象能力和概念形成的基礎。

5. 反思 : 人類智慧的一個必不可少的方面,是感知並反思自己的思維能力,這也是人工智慧領域近來很少討論的一點。在心理學中,這被稱作“元認知”。

正在學會“理解”的人工智慧

“意義的障礙”(barrier of meaning)這一短語完美地捕捉到了貫穿於全書的一個思想:人類能夠以某種深刻且本質的方式來理解他們面對的情境,然而,目前還沒有任何一個人工智慧系統具備這樣的理解力。

儘管當前最先進的人工智慧系統在完成某些特定的細分領域的任務上擁有比肩人類的能力,甚至在某些情況下的表現已經超越人類,但這些系統都缺乏理解人類在感知、語言和推理上賦予的豐富意義的能力。

這一理解力的缺乏主要表現在以下方面:非人類式錯誤、難以對所學到的內容進行抽象和遷移、對常識的缺乏、面對對抗式攻擊時所呈現出的脆弱性等。人工智慧和人類水準智慧之間的“意義的障礙”至今仍然存在。

理解的基石

想像你正駕車行駛在一條擁擠的城市街道上,當前的交通燈是綠燈,並且你正準備右轉,前方卻出現如圖14–1所示的情境。作為一個人類駕駛員,你需要具備哪些認知能力來理解這一情境呢?

圖14–1 你在開車時可能會遇到的一種情況

非常關鍵的一點是:嬰兒會發展出自己對世界上的因果關係的洞察力。例如,當有人推一個物體時,就像圖14–1中的女士推著嬰兒車,嬰兒車的移動並非因為巧合,而是有人推它。心理學家為此創造了術語“直覺物理學”(intuitive physics)來描述人類對物體及其運轉規則所具有的基本知識。

由於我們人類是一種典型的社會型物種,從嬰兒時期開始我們逐步發展出了直覺心理:感知並預測他人的感受、信念和目標的能力。

預測可能的未來

理解任何情況,其本質是一種能夠預測接下來可能會發生什麼的能力。在圖14–1的情境下,你預測正在過馬路的人會繼續朝著他們原來的方向行走;圖中的女士將繼續推著嬰兒車、牽著狗,同時拿著手機。你也會預測:這位女士會拉一下狗繩,而那條狗會反抗,並想繼續探索那個地方的氣味,這位女士會更使勁兒地拉狗繩,然後這條狗會跟在她身後,走到馬路上。如果你正在開車,你就需要為此做好準備!在一個更基本的層面上,你一定是希望女士的鞋子待在她腳上,頭待在身體上,道路還固定在地面上。你預測那位男士會從嬰兒車後面走出來,並且他將會有腿、腳和鞋子,這些會支撐著他站在路上。簡而言之,你擁有心理學家所說的關於世界之重要方面的“心智模型”,這個模型基於你掌握的物理學和生物學上的事實、因果關係和人類行為的知識。這些模型表示的是世界是如何運作的,使你能夠從心理上類比相應的情況。神經科學家還不清楚這種心智模型或運行在其之上的心智模擬,是如何從數十億相互連接的神經元的活動中產生的。

一個人對概念和情境的理解正是通過這些心智模擬來啟動自己之前的親身經歷,並想像可能需要採取的行動。其關鍵在於要能夠利用心智模型來想像不同可能的未來。

理解即模擬

心理學家勞倫斯·巴斯勞(Lawrence Barsalou)是“理解即模擬”(understanding as simulation)假說最為知名的支持者之一。對於像“真相”“存在”“無限”等這類非常抽象的概念,我們是如何理解的呢?巴斯勞和他的同事們幾十年來一直主張:即便是最為抽象的概念,我們也是通過對這些概念所發生的具體場景進行心智模擬來理解的。根據巴斯勞的觀點,我們使用對感覺-運動(sensory-motor)狀態的重演(即類比)來進行概念處理,並以此來表徵其所屬類別,即使是對最抽象的概念也是如此。令人驚訝的是(至少對我來說):這一假說最具說服力的證據來自對隱喻的認知研究。

我們賴以生存的隱喻

隱喻是一種以並不完全真實的方式來描述一個物體或動作,但有助於解釋一個想法或做出一個比較的修辭手法……隱喻經常應用在詩歌等文學體裁上,以及人們想要為其語言增添一些文采的時候。不僅僅是我們的日常語言中充斥著我們意識不到的隱喻,我們對基本上所有抽象概念的理解都是通過基於核心物理知識的隱喻來實現的。

我們通過核心物理知識來理解抽象概念。如果物理意義上的“溫暖”概念在心理上被啟動,例如,通過手持一杯熱咖啡,這也會啟動更抽象、隱喻層面上的“溫暖”概念,就像評價一個人的性格的實驗那樣,並且反之亦然。

如果我們對概念和情境的理解是通過構建心智模型進行類比來實現的,那麼,也許意識以及我們對自我的全部概念,都來自我們構建並類比自己的心智模型的能力。我不僅能在心智上類比打著電話過馬路的情境,還能在心智上模擬自己的這種想法,並預測自己接下來可能會想什麼,也就是說,我們有一個關於自己心智模型的模型。

我們擁有的與物理感覺相關的概念可能會啟動關於自我的抽象概念,後者通過神經系統的回饋,產生一種對自我的物理感知,你也可以將這裡的“自我”稱為意識。

抽象與類比,構建和使用我們的心智模型

構建和使用這些心智模型依賴於兩種基本的人類本能:抽象和類比。抽象是將特定的概念和情境識別為更一般的類別的能力。從某種形式上來說,抽象是我們所有概念的基礎,甚至從最早的嬰兒時期就開始了。

我們所謂的感知、分類、識別、泛化和聯想都涉及我們對所經歷過的情境進行抽象的行為。

抽象與“做類比”(analogy making)密切相關

侯世達幾十年來一直研究抽象和做類比,在一種非常一般的意義上將做類比定義為:對兩件事之間共同本質的感知。這一共同的本質可以是一個命名的概念,如“笑臉”“揮手告別”“貓”“巴羅克風格的音樂”,我們將其稱為類別;或在短時間創造的難以用語言進行表達的概念。類比在很多時候是我們無意識地做出來的,這種能力是我們抽象能力和概念形成的基礎。正如侯世達和他的合著者、心理學家伊曼紐爾·桑德爾(Emmanuel Sander)在《表像與本質》中所闡述的:“沒有概念就沒有思想,沒有類比就沒有概念。”

我們擁有的核心知識,有些是與生俱來的,有些是在成長過程中學到的。我們的概念在大腦中被編碼為可運行(即類比)的心智模型,以預測在各種情境下可能發生的事情,或者給定任一我們能想到的變化之後可能會發生什麼。我們大腦中的概念,從簡單的詞語到複雜的情境,都是通過抽象和類比習得的。

就如同目前的‘self’(自我)或‘understand’(理解)這樣的詞語對我們而言一樣,它們尚處於通往更完善的概念的起步階段。”明斯基繼續指出:“我們對這些概念的混淆,源于傳統思想不足以解決這一極度困難的問題……我們現在還處在關於心智的一系列概念的形成期。

缺乏像人類那樣的理解能力的人工智慧系統現在正被廣泛應用于現實世界中。突然之間,曾經一度僅僅是學術探討的問題,開始在現實世界中變得愈發重要了。為了可靠、穩定地完成其工作,人工智慧系統需要在多大程度上擁有像人類那樣的理解能力?或達到多大程度上的近似?沒有人知道答案,但人工智慧領域的研究者都認同這樣的觀點:掌握核心常識以及複雜的抽象和類比能力,是人工智慧未來發展不可或缺的重要一環。

知識、抽象和類比,賦予人工智慧核心常識

讓電腦具備核心直覺知識

“Cyc”這一名字意指喚醒世界的“百科全書”(encyclopedia),但與我們所熟知的百科全書不同,雷納特(Douglas Lenat,斯坦福大學人工智慧實驗室的一名博士生)的目標是讓Cyc涵蓋人類擁有的所有不成文的知識,或者至少涵蓋足以使人工智慧系統在視覺、語言、規劃、推理和其他領域中達到人類水準的知識。

Cyc是那種符號人工智慧系統 — — 一個關於特定實體或一般概念的論斷的集合,使用一種基於邏輯的電腦語言編寫而成。以下是一些Cyc中的論斷的例子 :

· 一個實體不能同時身處多個地點。

· 一個物件每過一年會老一歲。

· 每個人都有一個女性人類母親。

那麼究竟需要多少論斷才能獲得人類的常識呢?在2015年的一次講座中,雷納特稱目前Cyc中的論斷數量為1 500萬,並猜測說:“我們目前大概擁有了最終所需的論斷數量的5%左右。”

在Cyc中,專家是指人工將他們關於世界的知識轉化為邏輯語句的人。Cyc的知識庫比MYCIN(醫學診斷專家系統)的要大得多,Cyc的邏輯推理演算法也更複雜,但這些項目有相同的核心理念:智慧可通過在一個足夠廣泛的顯性知識集合上運行人類編碼的規則來獲取。在當今由深度學習主導的人工智慧領域內,Cyc是僅存的大規模符號人工智慧的成果之一。

有沒有這樣一種可能:只要付出足夠多的時間和努力,Cyc的工程師就真的能成功地獲取全部或足夠多的人類常識,不管這個“足夠多”具體是多少?我對此保持懷疑。比如,很多處於我們潛意識裡的知識,我們甚至不知道自己擁有這些知識,或者說常識,但是它們是我們人類所共有的,而且是在任何地方都沒有記載的知識。這包括我們在物理學、生物學和心理學上的許多核心直覺知識,這些知識是所有我們關於世界的更廣泛的知識的基礎。

如果你沒有有意識地認識到自己知道什麼,你就不能成為向一台電腦明確地提供這些知識的專家。

正如我在之前指出的:我們的常識是由抽象和類比支配的,如果沒有這些能力,我們所謂的常識就不可能存在。我認為:Cyc無法通過其大量事實組成的集合和一般邏輯推理來獲得與人類擁有的抽象和類比能力相類似的技能。

我們是否可以教一台計算機關於物體的直覺物理學?多個研究團隊已接受這一挑戰,並正在構建能學習一些關於世界因果物理關係的知識的人工智慧系統。他們的方法是從視頻、電子遊戲或其他類型的虛擬實境中進行學習

即便是最成功的系統,也無法在其狹窄的專業領域之外進行良好的泛化、形成抽象概念或者學會因果關係。

人工智慧領域再一次越來越多地討論關於賦予機器常識的重要性。

形成抽象,理想化的願景

然而,使機器形成類似於人類的概念化抽象能力仍然是一個懸而未決的問題。抽象和類比正是最初吸引我進入人工智慧研究領域的課題。這些謎題是由俄羅斯電腦科學家米哈伊爾·邦加德(Mikhail Bongard)設置的,他在1967年出版了一本名為《模式識別》(Pattern Recognition)的俄文書。這本書描述的是邦加德關於一個類似感知器的視覺識別系統的提案,但該書中最具影響力的部分卻是它的附錄,其中邦加德為人工智慧程式提供了100個謎題作為挑戰。

圖15–1給出了選自邦加德題集的4個問題。

就如心理學家羅伯特·弗倫奇(Robert French)所說的,抽象和類比都在於感知共性的微妙之處。為發現這種微妙的共性,你需要確定情境中的哪些屬性是相關的,而哪些可以忽略掉。

侯世達於1975年偶然發現了這本書,並且對附錄中的100個邦加德問題印象深刻,後來,他在自己的著作“GEB”中用了很長的篇幅講述了這些問題,我也是從“GEB”中第一次看到它們。

活躍的符號和做類比

在這個微觀世界中,概念滑移(conceptual slippage)這一概念是做類比的核心。

字串世界中的元認知

人類智慧的一個必不可少的方面,是感知並反思自己的思維能力,這也是人工智慧領域近來很少討論的一點,在心理學中,這被稱作“元認知”。

識別整個情境比識別單個物體要困難得多

我目前的研究方向是研發一個使用類比來靈活地識別“視覺情境”(visual situations)的人工智慧系統,視覺情境是一種涉及多個實體及其之間關係的視覺概念。例如,圖15–4中的4幅圖像,我們都可稱之為“遛狗”這一視覺情境的實例。人類很容易就能看出來,但是對於人工智慧系統來說,即便是識別簡單視覺情境中的實例,也非常具有挑戰性,識別整個情境比識別單個物體要困難得多。

圖15–5 4個非典型的遛狗示例

“我們真的,真的相距甚遠”

現代人工智慧以深度學習為主導,以DNN、大資料和超高速運算為三駕馬車,然而,在追求穩健和通用的智慧的過程中,深度學習可能會碰壁 — — 重中之重的“意義的障礙”。人類理解能力的複雜性,並以水晶般的清晰度展現了人工智慧所面臨的挑戰之大。

“具身”(embodiment)這一概念可能是構建像我們這樣能夠理解各種場景的電腦的唯一方法,就是讓它們接觸到我們在這麼多年來所擁有的結構化的和暫時的經驗、與世界互動的能力,以及一些在我思考它應具備何種能力時幾乎都無法想像的神奇的主動學習和推理的能力。

在17世紀,哲學家勒內·笛卡兒推測,我們的身體和思想是由不同的物質組成的,並受制於不同的物理定律。自20世紀50年代以來,人工智慧的主流方法都隱晦地接受了笛卡兒的這一論點,假設通用人工智慧可以通過非實體的程式來實現。但是,有一小部分人工智慧研究群體一直主張所謂的具身假說:如果一台機器沒有與世界進行交互的實體,那它就無法獲得人類水準的智慧。這種觀點認為:一台放置在桌子上的電腦,甚至是生長在缸中的非實體的大腦,都永遠無法獲得實現通用智慧所需的對概念的理解能力。只有那種既是物化的又在世界中很活躍的機器,才能在其領域中達到人類水準的智慧。

我們是否可以為機器賦予常識

在人工智慧發展的早期階段,機器學習和神經網路還尚未在該領域占主導地位,那時候,人工智慧研究人員還在人工地對程式執行任務所需的規則和知識編碼,對他們來說,通過“內在建構”的方法來捕獲足夠的人類常識以在機器中實現人類水準的智慧,看起來是完全合理的。

當深度學習開始展示其一系列非凡的成功時,不管是人工智慧領域的內行還是外行,大家都樂觀地認為我們即將實現通用的、人類水準的人工智慧了。然而,正如本書中反復強調的那樣,隨著深度學習系統的應用愈加廣泛,其智慧正逐漸露出“破綻”。即便是最成功的系統,也無法在其狹窄的專業領域之外進行良好的泛化、形成抽象概念或者學會因果關係。此外,它們經常會犯一些不像是人類會犯的錯誤,以及在對抗樣本上表現出的脆弱性都表明:它們並不真正理解我們教給它們的概念。

要想令人工智慧實現真正進步,就需要讓機器具備常識,但是,很多處於我們潛意識裡的知識,我們甚至不知道自己擁有這些知識,或者說常識,卻是我們人類所共有的,而且是在任何地方都沒有記載的知識。這包括我們在物理學、生物學和心理學上的許多核心直覺知識,這些知識是所有我們關於世界的更廣泛的知識的基礎。如果你沒有有意識地認識到自己知道什麼,你就不能成為向一台電腦明確地提供這些知識的專家。

Ps. 具身認知(Embodied cognition)強調認知與身體之間的緊密聯繫。它認為我們的身體不僅是感知和運動的工具,還直接影響我們的思維、情感和知覺。一個實際例子:身體的狀態(微笑)影響了我們的情感狀態(開心)。總之,具身認知強調我們的思維不是獨立於身體的,而是與身體緊密相連的。

思考6個關鍵問題,激發人工智慧的終極潛力

在1979年出版的“GEB”一書的末尾,侯世達就人工智慧的未來這一話題進行了自問自答。侯世達的推測讓我相信:儘管所有的媒體都在大肆炒作人類水準的人工智慧,在20世紀80年代我們也經歷過這種情況,但這個領域實際上是完全開放的,並急需新想法的加入,其中還有很多巨大的挑戰,等待著像我這樣的年輕人在這個領域大顯身手。

我自己提出的一些問題、答案和推測來作為本書的結尾是非常合適的 — — 既是向侯世達的“GEB”的這部分內容致敬,也是將我在本書中呈現的觀點串聯起來。

問題1:自動駕駛汽車還要多久才能普及?

美國國家公路交通安全管理局為車輛定義了6個自動等級。

我在此轉述如下:

0級:人類駕駛員執行全部的駕駛任務。

1級:車輛能夠偶爾通過控制方向盤或車速來對人類駕駛員提供支持,但不能同時進行。

2級:在某些情境下(通常是在高速公路上),車輛可以同時控制方向盤和車速。人類駕駛員必須時刻保持高度注意力,監控駕駛環境,並完成駕駛所需的其他行為,如變換車道、駛離高速公路、遇到紅綠燈時停車、為警車讓行等。

3級:在某些特定情境下車輛可以執行所有的駕駛行為,但是人類駕駛員必須隨時保持注意力,並隨時準備在必要時收回駕駛控制權。

4級:在特定情境下,車輛能夠完成所有的駕駛行為,人類不需要投入注意力。

5級:車輛可以在任何情境下完成所有駕駛行為。人類只是乘客,並且完全不需要參與駕駛。

有一些試驗車輛可以在相當寬泛的情境下實現完全自動駕駛,但是它們仍然需要一個隨時待命、收到通知就能立刻接管車輛的人類“安全駕駛員”。主要的障礙是那些長尾效應(邊緣案例),即車輛沒有接受過訓練的情境,通常,它們單獨發生的可能性很小,但當自動駕駛車輛被普及時,整體來看,這些情況就會頻繁發生。正如我所描述的,人類駕駛員會使用常識來處理這些事件,即通過將新遇到的情境與已瞭解的情境進行類比的方式來理解、預測並處理新的情境。車輛的完全自主也需要的那種核心直覺知識,包括:直覺物理學、直覺生物學,特別是直覺心理學。

由於未來的自動駕駛汽車將完全受軟件控制,它們更可能受到駭客的惡意攻擊。

一句值得記住的格言是:對於一項複雜的技術項目,完成其前90%的工作往往只需要花費10%的時間,而完成最後10%則需要花費90%的時間。

要實現完全自動駕駛,本質上需要通用人工智慧,而這幾乎不可能很快實現。

對於這一困境最可能的解決方法是改變對完全自主的定義,可以將其改爲:僅允許自動駕駛車輛在建造了確保車輛安全的基礎設施的特定區域內行駛。我們通常將這一解決方案稱爲“地理圍欄”(geo-fencing)。福特汽車公司前自動駕駛車輛總工程師傑基·迪馬科(Jackie DiMarco)是這樣解釋地理圍欄的:

當我們談論4級自動駕駛時,我們指的是在一個地理圍欄內的完全自動駕駛,在該區域內我們有一個定義過的高清地圖。

問題2:人工智慧會導致人類大規模失業嗎?

我的猜測是不會,至少近期不會。馬文·明斯基的“容易的事情做起來難”這句格言仍然適用於人工智慧的大部分領域,並且許多人類的工作對於計算機或機器人而言可能比我們想像的要困難得多。

問題3:計算機能夠具有創造性嗎?

有一種觀點認爲:由於從定義上來說,一臺計算機只能做一些經過明確編碼的事情,因而它不可能是具有創造性的。我認爲這種觀點是錯誤的。一個計算機程式可以通過許多種方式生成其編碼人員從未想到過的東西。

EMI被設計爲可用多個古典作曲家的風格生成音樂,並且它的一些作品甚至成功地騙過了一些專業音樂家,讓他們相信這些作品是由真正的人類作曲家創作的。

我認爲這個程式並不真正理解其所生成的音樂作品,無論是在音樂概念上,還是在情感的表達上。由於這些原因,EMI無法判斷它自己創作的音樂的質量,這是科普的工作,他將其簡單地描述爲:“那些我喜歡的作品會被發布出去,那些我不喜歡的作品則不會。”

我理解侯世達的擔憂,正如文學家喬納森·戈特沙爾(Jonathan Gottschall)在《會講故事的機器人在崛起》一文中所描寫的那樣:“藝術可以說最能區別人類與其他生物之間的不同,這是我們人類引以爲傲的事情。”

我想補充的是:讓我們感到自豪的不僅是我們可以創造藝術,還有我們對藝術賞析的能力、對其感人之處的理解以及對作品傳遞的資訊的體會。這種賞析和理解的能力對觀衆和藝術家來說都是必不可少的,沒有這些,我們就不能說一個生物是有創造力的。

問題4:我們距離創建通用的人類水準AI還有多遠?

“人類智慧是一種不可思議的、微妙的、難以理解的東西,短期內不會有被複制的危險。”對常識的理解、抽象和類比等,但這些方面的能力被證明是非常難以獲得的。而且,其他一些重大的問題仍然存在:通用人工智慧將需要意識嗎?有對自我的感知嗎?能感受情緒嗎?具有生存的本能和對死亡的恐懼嗎?需要一具軀體嗎?正如我在前文引用的明斯基的那句話:“我們現在還處在關於心智的一系列概念的形成期。

按照這種觀點,一臺超級智慧機器將具有一些接近“純粹智慧”的東西,不受任何人類弱點的限制。在我看來更有可能的是:這些所謂的人類侷限性,正是構成我們人類的通用智慧的一部分。在現實世界中勞作的軀體、我們進化出的能夠讓人類作爲一個社會組織來運行的情緒和非理性偏見,還有所有其他偶爾被認爲是認知缺陷的品質給我們帶來的束縛,實際上正是讓我們成爲一般意義上的聰明人而不是狹隘的博學之士的關鍵。我無法證明這一點,但我認爲通用智慧很有可能無法剝離所有這些人類的或機器的明顯缺陷。

問題5:我們應該對人工智慧感到多恐懼?

當下社會對人工智慧技術的不假思索地接受,存在以下風險:造成大量人失業的可能性、人工智慧系統被濫用的潛在風險,以及這些系統在面對攻擊時的不可靠性和脆弱性。這些僅僅是人們對技術可能對人類生活產生影響的一些非常合理的擔憂。

我們人類傾向於高估人工智慧的發展速度,而低估人類自身智能的複雜性。目前的人工智慧與通用智慧還相距甚遠,並且我不認爲超級智能已經近在眼前了。如果通用人工智慧真的會實現,我敢保證,它的複雜性能夠與我們人類的大腦相媲美。我認爲,短期內人工智慧系統最令人擔憂的問題是:我們在沒有充分意識到人工智慧的侷限性和脆弱性時就給它賦予了太多的自主權。我們傾向於擬人化人工智慧系統,我們把人類的品質灌輸給這些系統,卻又高估了這些系統可以被完全信任的程度。

還有一個令我感到害怕的應用是:使用人工智慧系統生成僞造的媒體內容,比如,使用文字、聲音、圖像和視頻等來描繪可怕的、實際上從未真正發生過的事件。

然而,在對演算法和數據的不道德使用及其危險的潛在用途方面,仍然存在很多令人擔心的問題。這很可怕,但讓人欣慰的是,這一問題近期在人工智慧研究領域以及一些其他領域中受到了廣泛關注。

問題6:人工智慧中有哪些激動人心的問題還尚未解決?

約翰·麥卡錫等人在1956年的建議書中列出了人工智慧領域中的許多重大研究課題:自然語言處理、神經網路、機器學習、抽象概念和推理以及創造力。如今,這些問題依然是人工智慧領域最核心的研究課題。

人工智慧中最激動人心的問題不僅僅是在其潛在應用上。該領域的創建者的動機不僅來自與智慧的本質有關的科學問題的激勵,還來自對開發新技術的渴望。

--

--

Vincent Chen-WS
Vincent Chen

喜歡閱讀科普、心理、網路治理、哲學宗教等書籍