GPT2, Counting Consciousness and the Curious Hacker (中譯:挑戰信任:GPT2和好奇的駭客)

Chia-Hsiang Kao (高家祥)
34 min readJan 4, 2020

--

Translator: This post is a translation work under the permission of the author, Connor Leahy. Since the author don’t speak Chinese, he cannot verify the accuracy of the translation. The translation intends to faithfully present the ideas of the author but transparency (effectiveness) is sometimes considered. For original post, see “GPT2, Counting Consciousness and the Curious Hacker

譯者:本文在徵得原作者(Connor Leahy)的同意下翻譯。由於原作者不諳中文,因此他無法確認譯文與原文的一致性。翻譯內容盡量如實傳遞作者原意,但偶爾參雜譯者的理解與行文流暢度考量。原文出自〈GPT2, Counting Consciousness and the Curious Hacker〉。

脈絡速寫:Connor Leahy是德國的男大學生,他重製GPT2模型,並在本篇文章說明他想釋出該模型的原因。在公告這篇文章之後,釋出模型之前,作者徵求任何說服他不要公開模型的論點。最後,他被說服了,並寫下另一篇文章〈The Hacker Learns to Trust〉。

本文分為三部分。第一部分鋪墊GPT2模型的背景知識以及這模型值得注意之處;第二部分則呈現GPT2對整個人類社會的意義的思考;第三部分,我想稍微岔開主題,並談論對AI安全性相當重要的內容──一名好奇駭客的心,這也是我開始這個專案的原因。

我要對文章長度致歉,但文章很可能已比預計地縮減了一半,因為我真的有很多想說。我請求你們在閱讀時稍微按捺住自己對我的意見與批評,直到你們完整地讀完。我經常突然岔到看似不相干的主題,但請你們再多一點耐心,我保證會回到正軌(應該啦……)

第一部分:GPT2

不久前,OpenAI公告他們最新的語言生成(language creation)人工智慧系統──GPT2──的細節。GPT2真正引起世人注意的原因並不是因為它使得其他模型黯然失色,畢竟這不是第一個語言生成模型。主因是,OpenAI決定不釋出GPT2的完整模型(共1.5 B)。他們主要的考量是GPT2用來生產假新聞的潛在安全顧慮。OpenAI釋出的是小規模(117M)和中規模(345M)的模型。學理上,從小規模模型拓展成中規模或是大規模並不困難,但困難的是更實際的成本問題:要做出一個1.5B的模型估計需40k的雲端運算成本。從符合過去的趨勢:訓練出頂尖的AI模型的成本只會越來越高。

OpenAI的決定引起了廣泛的討論,不過直到現在,1.5B的模型仍未釋出(除了少數研究夥伴),且──根據我的瞭解──尚未被再現。沒有個人或學術研究機構可以獲得足夠的資源來從頭建立1.5B模型。

是說,我重現了1.5B的模型。

我並非隸屬於任何公家部門、大學或大型公司(雖然我認為我欠Google一大筆,因為他們免費地給了我強大的支持)。我只是一個把時間放在AI實驗而非出外撩妹的好奇的大學生罷了。

在這篇文章,我不會解釋技術上的細節(可參見我的另一篇文章),而想趁這個時候,談談我是如何看待GPT2模型之於AI和AI安全的關係。

為何這是個值得注意的問題?

如果你花點時間看看GPT2模型產出的結果,你就能明白這為何重要。它生產的文章出奇地具有連貫性,那是行文風格上而非內容上的連貫。這個結果相當滑稽,但也是個隱憂。

GPT2跟其他語言生成模型的差別在於它的通用性(generic)。它的訓練資料來自reddit.com這個社群交流網站上三個大於karma點數(一種讀者認證指標)的文章。我曾在小規模模型上進行多種實驗,也玩得很愉快。我和朋友可以一整個小時大聲念出GPT2模型生產的搞笑文本(text)然後笑得天昏地暗(尤其當我們餵入正經八百的聖經字句得到的卻是令人忍俊不住的宗教胡言亂語)。我和一個朋友鼓搗出一個導入GPT2的電腦遊戲。我們甚至在一個派對上圍坐在鋼琴旁邊,慫恿GPT2直到它終於吐出一句跟旋律能符合的句子,於是我的好友Sebastian (@shyteagames)就把它變成了一個即興的科幻音樂劇(我在派對之前完全沒有想會發生這種事,但這真的很搞笑)。

現在,就像是我大多的飲食和運動習慣,所有令人愉悅的事總是對人有害。同樣的模型能生成使人發噱的達達主義標語,也可以是不那麼歡樂的事情:假新聞與評論、煽動性的政治訊息(GPT2特別熱衷於英國脫歐(Brexit)的話題)和其他網路上已大量充斥的輿論。基於這些原因,OpenAI決定不釋出完整的GPT2模型(它能產生連貫地、令人信服的文本而不單單只是短短的一言兩語)。但這個決定有用嗎?這是個正確的決定嗎?如果有人像我一樣再現了這個危險的技術呢?

向左走,向右走?

道德,是這個世界應該走的方式;經濟,是這個世界實際走的方式。

我們退一步說,或者多退幾步。是什麼讓GPT2具有潛在的危險性?它具備怎麼樣的性質使得我們需要擔心?這些性質會如何影響真實世界?

人們的首要顧慮是,GPT2可以沒有顧慮地搗亂網路世界,即便後者已經混亂不堪。但實際上會怎麼發生呢?這派的說法是,透過使用GPT2,惡意的有心人士用不實訊息的洪流,來鼓動特定說法,操縱評論,或讓人們煩躁厭惡。但GPT2如何達到這個目標?GPT2產生文本,人類也可以產生文本,所以,一切都與往常相同嗎?一點也不。事實上,GPT2(、AI及科技整體)的出現迫使我們回頭審視經濟學人最常掛在嘴邊的工具之一:成本。

這些人認為,使用諸如GPT2的科技,我們並沒有創造新的生產活動,但我們降低了產生具有說服力的文本的成本。你可能想說:「喔,這聽起來很無聊」,那你可能就錯過了經濟學的有趣之處。(我原以為經濟就是商業和金錢的東西。天真如我是錯的,經濟可能是世界上最炫的領域)。透過降低一個產品的成本,你可以讓一個完全新的產業或應用變的可行。舉一個最常見的例子:電腦。你原則上可以在1980年代的電腦上做跟現在一模一樣的運算,前提是你造得夠大,且等得夠久,但是,龐大的金錢和時間成本會讓現代的日常應用場景變得不可能。軟體成長緊跟著硬體的成長,這是一個趨勢。當硬體更快速地成長,新的演算法成為了可能,但在經濟學家眼裡,他們看到的不是「更快速成長」,是「變得更便宜」。

因此,在某些假設上,GPT2的到來意味著人類社會關鍵時刻的來臨,因為它大幅地降低文本生產的成本以至於成了惡意攻擊的溫床。我很可以理解這個論點,但也有魔鬼藏在其細節中。

我想要談談我的看法,所以我們再退個幾步。此處請容許我吹毛求疵地解析這個問題,我想這個步驟可以帶我們到有趣的結論上。

第二部分: Human-AI=?=Consciousness

在假資訊製造器面前,反抗無用、助益不成、危險有餘

我高度重視AI的安全性問題。我的想法和主流社會的觀點有點不同,而與機器智能研究院(Machine Intelligence Research Institute)的思路類似:AI和如何安全使用是當今社會最重要的議題。 (釐清一下,我並非來自機器智能研究院,雖然我希望我是)

很不幸地,許多關於GPT2的想法都因現下的政治狀態──快速爆紅,不論其品質與可信度──而無法進入有效討論。本文不是一篇政治論述,但我的確相信,「假新聞」這個字眼──在這個時間點──成為了風潮的一環。我並非無視假新聞的存在或是危害,但我認為這個字彙在政治面前變得過度模糊,以至於人們無法更深刻的思考假新聞究竟是什麼?帶來的威脅有多大?以及如何有效地打擊它?

我很推薦這系列的微紀錄片,它們是精心之作。我覺得最有趣的事莫過於立陶宛自稱為「小精靈」的積極公民如何反制來自俄羅斯的假新聞洗腦。

假新聞是真的、廣泛存在的且具有潛在的殺傷力。假新聞絕對不是個假議題。

每個世代都認為今非昔比,然而哪怕只是認真翻動一頁歷史,就會馬上莞爾,然後發現自己跟大多數人有一樣的想法。我十分推薦Steven Pinker的《人性中的良善天使:暴力如何從我們的世界中逐漸消失》和《再啟蒙的年代︰為理性、科學、人文主義和進步辯護》以及Hans Rosling的《真確:扭轉十大直覺偏誤, 發現事情比你想的美好》來淺嚐現在世界如何比過去要好,以及,如何比過去糟糕。

現在多數人對假新聞的看法也屬於這一類。是的,還是有很多人認為疫苗造成自閉症,或這個世界是平的,或更多更糟更奇怪的觀點。這些怪誕的想法大多散播自網路。

但你曾見過在所謂「現代」之前的時代嗎?

你說的沒錯,從成為了政治戰場的臉書上獲取時事不是好事,但你知道什麼更糟糕嗎?當不只是政治,關於物理、生物、經濟知識以及誰要被綁在木椿上燒死的資訊都來自於地方宗教機構。這是過去人類歷史的常態。我寧願有相信持地平說者,也不要有西班牙異端審判庭。

「好吧」,你可能這麼想,「雖然現在沒有比以前更糟,但在假新聞的面前,我們總可以做更多事情。」這句話我完全同意,但我不是指我們應該防範假訊息,我恰好抱持著相反的論點。

最近,OpenAI 釋出了GPT2產出的訊息資料,希望用來協助人們發展對應的方法來防範偽文本。我認為這個做法是錯的、危險的、且誤導了我們的方向。

真相並非毫無代價。

真相十分昂貴。挖掘出世界真正的模樣需要心力,很多很多的心力。如果你想要知道某事某時某物的真相,你只能投注心力於其中,這是不二法門。

不過,還是有個可能的方法,該方法讓人類達到了其他生物無法企及的成就。

最珍貴的商品

給你一個猜謎:人類經濟史上,最為值錢的商品(commodity)是什麼?

如果你直覺想著「金錢」或「石油」,那我猜你並沒有認真地思考。我認為正確答案是「信任」(trust)。

是什麼讓人從萬物中脫穎而出?為何我們可以送太空船登陸月球或向地球另一面的人聊天?明顯的答案是:智力。但我認為這答案只解釋了一部份的故事。我們隨便找一個世界上最聰明的人吧,然後把他/她的複製嬰兒丟到山洞。沒有教育,沒有語言,什麼都沒有。然後要求他/她無中生有,你需要等待很久很久。

智力不是主因,智力讓「合作」變得更為強大。合作,讓人們透過體力與智力來企及無法想像的事。想像一個人類無法協作相處的世界,知識無法傳承,新的發明將被遺忘,後人總需從頭開始。有些世代或許過的比其他好,但總體而言,我們看不見有實質意義的進步,這就是現在黑猩猩停留的階段。

人類發明了很猛的東西:信任與跟陌生人合作的能力。也因此,我們透過大量的互動,而累積經驗並有了文化上的傳承。我可以寫得更詳細,但你應該去讀讀以色列歷史學家哈拉瑞(Yuval Harari)的著作 《人類大歷史:從野獸到扮演上帝》和 《人類簡史》、 Daniel Dennett 的《從細菌到巴赫:心智的進化》和其他相關的論文佳作。

重點來了:資訊的危險性/重要性端看我們對它的信任程度

如果世人能一眼判斷假新聞並選擇不相信它,那假新聞實在沒什麼威脅。(除非它佔據了所有網路頻寬)。但我們過去的認知告訴我們事情並不單純。如果你能一眼認出假新聞,那你一定無所不知,但你不可能。

現在來說說我的論點:我認為,一個能偵測假新聞和仇恨言論的方法──至少就其目前被應用的方式──是危險的。理由很大也很小,我想:即便我們有一個系統能夠負責分辨我們可以信任與不能信任的事物,我們對挖掘真相的需求仍然存在,但我們只是把信任的對象從人類轉移到了機器。(我要呼叫 美國的資安專家暨密碼學學者Bruce Schneier的這篇文章,它協助我推導至這個思路)

如果我給你一篇文章,並且不告訴你其來自,你要如何辨別上頭的資訊是否正確?你需要閱讀它,並同時思索它是否符合你既有的知識,並不斷嘗試探索更多資訊來證偽其論點。你,憑藉著大腦與過去經驗形塑的偵測演算法,來決定是否要信任該文章。

如果我今天給你的是紐約時報呢?那故事就不同了?對吧?紐約時報是個有信譽的資訊來源。就算它偶爾刊登了人們正常會懷疑的新聞,我們最終仍可能傾向於信任它並且更新我們的信念,因為你知道它的來源值得信賴。

但我們為何相信紐約時報呢?那是因為紐約時報是由一群用大腦執行偵測演算法的人所組成的:偵測誤報,找到真相。你可以把紐約時報想像成是龐大、合成生物的資訊過濾系統,食入關於這個世界的資訊──其中多為雜訊或刻意騙人的──然後萃取出無價、(幸好還)真實的資訊來讓你閱讀。

理論上,我覺得機器辨識假新聞不是個太科幻的事。人類跟機器差距不大,且人類有偏差,因此我們沒有理由無法弄出一個更好的AI演算法來產出事實,然而,我們最好要能保證後者真的會表現的比較好。我覺得,就連現在最好的技術還不能夠達到跟人類一樣的能力,即便後者帶有偏見。現存的AI仍無法分辨因果與相關的差別,而我們希望由它來辨識資訊真偽。恐終無善果。

我們不能不信任,我們總是必須信任某些東西,而我們只需要將信任投注在正確的事物上。如果我們使用現存的幾種演算法來嘗試防衛GPT2帶來的假資訊的威脅,我們可能事倍功半,弊大於利。因為演算法們不但無法辨識與整理事實,甚至可能造成更嚴重的問題。

令人不安的噴空話者

我跟AI相處了好一陣子,不斷地查看AI的輸出,回頭確認資料集,調整一些參數,諸此這般的事。在重製了GPT2後,我花費大把時間跟文本生成AI相處。還記得某個下午,我和一個朋友一起查看幾個可以用來訓練下個AI的網路資料集。我們發現一個「惡意留言」資料集,在稍作瀏覽後,朋友問了一個我當時沒意識到其重要性的問題:

「等一下,這些留言該不會是AI生成的吧?」

不是的,不是的。這些是真正的人類的留言。但在我仔細看了一下後,我突然被點醒了。你知道你總會有時候覺得某個人是腦袋破洞了。那些字句不經大腦地噴自口中,完全沒有意義。他們說出一個完整的句子,來表達思緒和希望,但這些言論像僵屍般悖於理性──你可能想到某些政治爆紅迷因。現在,別指認你身邊的這些殭屍,因為你也曾是這種空洞的人。在看到這些文本以及GPT2後,我可以更清楚地描述那種感覺:這些惡意留言,這些人,跟GPT2幾乎沒有差別!!! 不過就是不斷地重組排列字詞。

經濟學家Robin Hanson寫過相同主題的文章,並稱該現象為「說空話」。我十分建議你在這邊打住並讀讀它的部落格文章。讀好了嗎?很好。(Sarah Constantin 她很有趣的部落格文章延伸了相同的概念)

所以這代表什麼?就我有能力闡述的是,AI沒有辦法生成連貫的、真實的文本。但AI現在可以做到的是「說空話(babbling)」。說空話,是人類交流的一大部分,想想各種敷衍應對、場面話和課堂作文。不過,我認為空話本身具有更深層的意義。【譯按:babble: 急促不清的(亂)說話,可譯為囉嗦碎語、胡說八道、講幹話、噴垃圾話、說場面話。此處選譯為說空話】【1】

如果我們可以部署一個偵測AI生成的空話的系統,那該系統很可能不只查禁AI,很大一部份反而是人類的交流。我們傾向於認為我們和機器、電腦有本質上的不同,但我們是錯的。而且,GPT2揭露了另一個新的可能。

我們要怎麼處理這些空話呢?

寫至此,我們已建立好的架構來闡述我們的立場

  • 幾近人類說空話能力的AI的確存在,它們只會愈加進步,其勢不可擋。
  • 我們希望,在這些說空話的AI程式存在的情況下,仍然改善──或至少維持──線上交流的品質。

我們來看看屁話的內容。理論上,我們能開發出偵測這些幹話的演算法並過濾它們,一如我們處理垃圾郵件的方式。但我想嘗試論述的是,這不是能力上的不可行,而是實作上有難處:因為,異於垃圾郵件,AI生成的空話跟人類生成的空話差別不在於風格形式(style),而在於內容與真實性(truth value)。只要我們沒有一個能自動偵測政治主張正偽的東西,那實作上根本無法運作。當然,我們可以把低品質的空話都過濾掉,不管是AI或是人類產生的,而結果可能很賞心悅目。但我不是那麼確定,我認為空話和深層次思維的界線是模糊的,也幾乎無法單從文本內容辨識。因此,若過濾空話的內容,很多真誠的、高品質的人類互動訊息也同時被去除,得到的是一個由不透明的演算法按照它不可知的喜好來形塑的詭譎、人為的環境。

如果從另一邊──訊息源頭──著手呢?我的意思是,如果一個新的貼文到達了網頁伺服器,然後我們馬上知道它是AI產生的,那麼我可以避免它的擴散,多棒!當然,這還是行不通,因為我們無法知曉某段文本的源頭。文本,就是沒有根源的一堆堆資料。上頭沒有任何作者資訊,就算有,又何辨其真偽?

人類的心智在一個「所有高階的文字資訊都來自於其他人類」的環境裡演化,這就是假新聞搗亂我們的原因之一。世界上沒有會說話的動物、神靈和石頭,致使我們自然而然地培養了奇特的直覺:當我們看到文字或論述時,我們知道它們由人類產生,這也形塑我們對資訊的信任。

人類會欺騙彼此和操作資訊,於是我們不會相信所有新產生的資訊。你之所以不相信突然冒出的陌生人的主張,是因為說謊的成本太便宜了(在經濟學的理解上)。我若要宣稱「月亮不存在」根本不需任何代價(可笑的是,那些支持月亮墜落說的懷疑論者,竟然認為月亮真實存在,真是一群被欺騙的羊群啊!)。這主張是真的嗎? 我把它留給你們去想想。

我很容易主張月亮是假的,但要1000個人來主張月亮是假的就很困難了(但或許比想像中更容易些)。當你聽到我說月亮是虛幻的,你不會太注意我。但如果有1000個人這麼宣稱呢?如果你全家的人都這麼認為呢?如果全世界和所有科學家都這麼認為呢?如果真的發生這種事,相信月亮存在恐怕就成為最愚蠢的事了

從眾(conformity),有時招致人們的抱怨。人們之所以從眾,是因為合作讓人們強大,而合作有時需要我們承認自己是錯的。如果有一大群人──其中多數比你更勝任──宣稱某主張,那麼你不去支持該主張就顯得很不理性,除非你有掌握著特別、決定性的支持證據。

生物學的區塊鏈

接下來事情變得越加奇怪了(至少比我剛才所講的更加奇怪)。

上述的事情之所以行得通是因為:說服人們去相信某件事的成本很高。某方面來說,人類的繁衍生存與比特幣的工作量證明(Proof-of-Work)演算法宗旨相同。

且容我(再次)離題來解釋一下區塊鏈(blockchain)與分散式信任(distributed trust)。

假設,某天一位朋友出現在我面前並說「我用PayPal轉了100$給你」,我要如何確認我真的有收到錢?簡單呀!我只要檢查PayPal帳號並且相信查詢到的結果。PayPal即為集中式信任(centralized trust)的例子。我相信PayPal會打點好一切來確保交易成功且有效(包含檢查我的朋友是否有足夠的錢能轉給我、朋友是否真的有轉帳、及各種防偽科技…)。所以當我登入我的PayPal帳號並看到我朋友轉的100$,我們都能同意該交易的有效性。

但是這個系統有個致命弱點:PayPal本身。技術上來說,可能存在一徇私舞弊的員工(或許就是朋友自己)對PayPal資料庫稍作修改,使他們在不花費一分一毫下轉給我100$。此時,這資料庫是「不一致的 (inconsistent)」,因為系統輸出的金額比實際輸入的還多,而這不是我們樂見的。理論上,PayPal可以任意操作資料庫,不管資料庫是否一致(,直到聯邦調查局出現或是顧客不再信任)。

在相信容易出錯的中心化系統外,是否還有其他選擇?我先申明,世界上並沒有完全不可信的系統(就像Bruce Schneier一直在講的)。有一種系統叫做分散式信任(distributed trust),以比特幣這樣的加密貨幣著稱。

它的基礎運作方式如下:我們有 (a)某種每個人都可以閱讀的共同資訊儲存庫(區塊鏈)。這好比在公共廣場和人群聊天,資訊可以被交換,而製造錯誤訊息的成本很低廉。區塊鏈真正特別的點在於 (b)修改資訊的成本非常非常昂貴(或幾乎不可能)。這通常透過一個稱為工作量證明(Proof-of-Work)的程序達成的。加密貨幣(如比特幣)會以巧妙的演算法來強迫使用者製造「憑據(proof)」,且該「憑據」需耗費一定的計算力,只有擁有這(一次性的)「憑據」,你才能在有限的程度內修改區塊鏈裡的資訊,而這有限程度的修改仍需經過其他人的檢查與認證才會被承認。因此,修改區塊鏈來讓自己受益(例如給自己轉一點錢)的代價極高,高到不符成本或幾乎是不可能的。這絕非實作上不可能,但也相差不遠。(需要擁有目前運行比特幣的所有電腦的計算力的一半以上)

結果就是,只要你不認為有人會擁有能竄改比特幣區塊鏈的超強電腦(也相信程式沒有致命的錯誤),你就可以信任比特幣區塊鏈。通常,這假設很合理,所以信任比特幣區塊鏈也蠻合理的。

以上討論之所以重要,是因為人類發展出一種生物區塊鏈。可信的訊息就像是區塊鏈上的交易,只有被大多數運行該區塊鏈的人認定為真,才算是有效的交易。人類也是這樣運作的,只有在經過一定數量的人認同後,我們才會接受一個新訊息為「常識」和「是真的」(這是挖掘真相的重要方式,但並非唯一)。當然這比由簡潔、精確的數學構成的區塊鏈複雜許多,但背後的原理是相通的。

生物區塊鏈由兩部分組成,我們有 (a)一個由共同信念(common beliefs)組成的資料庫和 (b)一個難以竄改的驗證方法──你需要很多人接受以便散播你的新資訊。而散播你的新資訊受限於你所能接觸的人數與說服他們的難易度。記住:

“你可以偶爾地愚弄所有人,或持續地愚弄某些人,但你無法持續地愚弄所有人。” — — 亞伯拉罕·林肯

林肯也懂生物區塊鏈的概念!這蠻符合生物學上的直覺:我們的大腦會將「很多人相信X」與「X一定為真」關聯在一起。如果我想要讓石器時代部落的族群相信我的新想法,這還蠻難的,不能只是信口開河。而如果我成功了,那麼我的想法想必經過考察且通過了某種程度的查核。再重複一次,分散式信任並非完滿,但是總比什麼都沒有好(想想黑猩猩們)。

削弱生物區塊鏈

最終回到我的論點:就是假新聞之所以危險。

我發現自己總是如此行事:在閱讀我並不熟悉的reddit文章標題後,瀏覽下方的第一第二則留言,在出於本能而未經思考,我就相信那些留言所述。我有訓練自己注意這情形並嘗試避免,但真的很難,因為這是我們大腦內建的系統,也是我們人類的思維方式。如此的思維模式也確實合理,當看到那些留言,我的大腦看到論述(speech),而論述意味著這由擁有大腦的真實人類產出。不只如此,它們還有大量好評,代表群眾相信他。補充一下Daniel Kahneman(認知偏見(cognitive biases)研究之父)說的:「你只看見到你原本就相信的事物(What You See Is All There Is)」。我的大腦看到大量人類同胞上呈到生物區塊鏈的資訊,所以大腦把它評定為值得信賴。

一般而言,即便是在網路上,這也不是太糟,讚數最高的留言通常較佳(儘管不總是如此)。但是這系統有很多種破解方式,我確信你也可以想到幾種(類似於搧風點火的言論並非因其品質才快速傳播),但現在先專注於與我們的討論最相關的一種。

我感興趣的破解方式是在網際網路興起後才能達成的新方式:「相信主流意見」的捷思(heuristic)法則──只有在且僅在──工作量證明的假設被保證的情形下(意即,促使更多人相信我見是高成本的)才有效。但是,隨著大眾媒體的湧進──起於印刷的發明,後因網路而快速普及──工作量證明的假設已經有點難站住腳了。

原因在於我們先前所討論的,我們(通常)不會看到資訊的來源。所以,當我們在判斷是否要對某則新資訊使用「相信主流意見」的捷思法,我們第一步會先嘗試確認「訊息來源是否為真人」(這是我們將這新訊息上呈到生物區塊鏈的(最低)要求)。我們舊有的方法很簡單:若這是一段口說論述/手稿,它肯定出自人類。這方法在過去歷史中都運作良好。我聽到你說的話,於是我確認該資訊的訊息源是你,就算是書寫被發明了,我也確定一段文字只能出自另一名人類(儘管局限於人群中少數懂得寫作的人)。

這樣的捷思法,已因書寫的發明而受損,並在印刷術發明後更加失去效用──因為現在一小撮人使用印刷術產生的文字量,在以前需要一大群人手寫。隨著文本生產成本的下滑,文本來源的可靠性也越來越薄弱,而這股趨勢也只會繼續下去。音訊紀錄則降低了用影像與文字紀錄所見所聞的成本與價值,而網路則讓以上所有成本都跌到不能再低。

單就文本來說,若我身處中世紀,並拿100人的手寫簽名來替我的論點背書,那還真的頗多。但如果現在我呈現給你有100個名字背書的一個不明來源網頁,你會信我幾分?完全不會吧。自從網路最早開始的那段時間,人們已經發現產生文本變得極度便宜了。

所以我們這些聰明的猿猴開始發展反制措施,像是垃圾郵件過濾器,是基於文本內容的精緻程度進行篩選。因為,雖然生產簡單的文本很便宜,但生產高品質的(偶爾甚至是空話等級的)文本的成本仍然高昂。另外也有試著辨認資源來源是否為人類的方法,像是CAPTCHA,它能夠在很多情形運作良好,但仍有許多方法能規避這些檢查,而同時該方法也有其他的問題

也就是說,對於大部分連貫、複雜的文本,假設它們出自人類之手並讓它們影響我們的生物區塊鏈仍然是合理的。

而我的核心論點是這樣的:這幾年來,我們對於能上呈到生物區塊鏈的資訊的憑據的要求持續地上升,GPT2則是最近一次的要求提升,使我們不再能相信空話程度的文本。

我基本上認為,自書面文宣發明以來,我們對文本的要求早就高過於空話層次。但是,GPT2的出現讓空話程度的文本的生產成本下降到幾乎為零,就像是網路在過去一二十年讓低品質的垃圾郵件變得低成本一樣。(對垃圾郵件有興趣的人可以參考這個有趣的Defcon (譯按:全球最大的計算機安全會議之一)演講)

我們有任何應變之道嗎?我認為並沒有簡單的解決方案。我們已經來到了這麼一個時間點:在一般情況下我們不再能分辨一個不明文本是否出自人類。與其說是一個時間點,我想更像是一個漸進過程:從90年代最簡單的垃圾郵件到現今的GPT2,再到無人所知的未來。

我認為,這是一個本質上無法輕鬆解決的難題。我們能夠做什麼?要求任何人寫評論時必須顯示「意識許可證」來證明他們的存在?老實說,我認為這將提高我們生物區塊鏈的質量,但我應不需細細闡明其隱含的賽博龐克-反烏托邦(cyberpunk-dystopian)的思想。目前我們擁有的最佳工具仍然是人腦。我們應該教導人們去認知到各自的偏見,以及,了解資訊在網路與其他媒體上的生成與創造。

我想,如果人們知道GPT2這類東西的存在並且可能就潛伏在旁,這將強迫他們提高自己資訊識讀的標準,猶如辨識垃圾郵件。當尼日利亞王子和其他類似的可笑的低級騙局第一次出現時,它們確實能騙到人。就好像電腦病毒,很多病毒第一次出現就能攻擊成功是因為沒有人想到一個檔案竟然會帶有惡意。為什麼資安專家要駭入系統並公開系統漏洞?因為這是唯一能讓人們注意到,原來你所說的威脅確實存在。(儘管如此,任何資安專家或氣候行動聯盟都能告訴你各種人們仍然不認真看待這類風險的故事)。人們只有在認知到威脅存在的情形下才會開始抵抗。

而這就是我為何計畫要在七月一號公開1.5B的GPT2模型給大眾的原因。我一直在等,等有人能夠說服我說:「我思慮不周而且是錯的」。因為裝作GPT2不存在或是「只會落在像OpenAI的好人手中」,只會讓心懷不軌的秘密組織如願以償。我認為應該就要讓GPT2與類似的空話製造器(babbling methods)能夠廣為人知並且任人使用,然後──就像垃圾郵件與電腦病毒──我們會開始面對並發展策略。

覆水難收,精靈離開神燈就不再回去了。

集大成者:GPT2、空話與信任

最後,在此提出了我的主要論點,稍微回顧一下:

1. 目前的AI還不能寫出真實且有價值的文本,但已經可以不停地說空話。

2. 說空話,佔據人類互動的一大部分。

3. 當前的技術還無法檢測或生產事實。

我從這些論點得出的推論是:

  1. GPT2並不特別危險,反而是在必然趨勢下的先手。它可能會降低產生可信文本的成本,也可能不會,但是實力堅強的組織已經可以使用人力和其他演算法來產生更大量更好的內容,而只要那些組織想要,做出GPT2也不難。
  2. 對於低質量空話─無論是不是由AI所產生的─的抵制(fighting)是至關重要的,但我們不應該因而信任明顯有缺陷的「反空話演算法」。也許有一天,值得我們信賴的系統將會出現,只不過那一天還沒到來。
  3. 與其讓人們依賴有缺陷的演算法,我們更應該訓練前者的批判性思維,來判斷什麼是可信的。人腦仍是我們目前所知的最強的事實生產器。
  4. 為了促進人們適應這些狀況,我認為應盡可能地散播這些(類似GPT2的垃圾訊息製造)方法,使任何人都無法躲在錯誤的安全感後。為了進一步實現這一目標,我打算公開1.5B的GPT2模型。

以上是我的論點和本文的核心內容。它與GPT2及其前因後果有著直接的關聯。此外,還有另一件我認為值得探討的事,基本上這是一個獨立的主題,但我認為它會為我們當前的討論添色。

第三部分:那些好奇的駭客

駭客的定義(原意:用斧頭做家具的人):

1. 享受學習寫程式的細節、善用他們能力的人,和大部分只願意學習必要與基礎的人相反。

2. 熱中寫程式的人,或者享受實作而非只談理論的人。

3. 欣賞駭客價值的人。

4. 寫程式很快的人。並不是所有駭客寫的內容都是駭客行為。

5. 特定程式的專家,或者經常使用特定程式的人,舉例: A SAIL hacker (定義1–5是相關的,通常都符合全部)

6. 有惡意或者好奇的不速之客,藉由各種刺探來嘗試著揭露訊息。例如「密碼駭客」、「網站駭客」。

在上方的文章中,我盡量把我的個人立場排除,因為我覺得我的身分對於Part1,Part2的討論並不重要。但這第三部分,我可能會談一個不太相關的主題:我稱之為「好奇的駭客」的心理思維 (我本來只想叫「特定的駭客」,但很不幸這個詞會導致我一些負面聯想)

對於某些人而言,我的所作所為非常莫名其妙:建立一個「危險」的AI程式,對於本身財務沒有幫助(而且不僅是沒幫助,還花了我大量時間和腦細胞,原本可以花在更有產值的事情上),還想公諸於世。對於好些我預期的讀者們,我期待他們認為我的動機是非常清楚易懂。因為這些讀者跟我一樣,我們都是那些好奇的駭客。

但對於很多人來說,像我這樣的人真的很奇怪,而且不理解我們為什麼要做這種事。這並不是因為他們不行或不想這麼做,而是他們無法理解怎麼會有人跟自己或自己身邊的人熟習的想法不一樣。但我覺得我們這些好奇的駭客對於我們生活至關重要,儘管我們可能沒有意識到這件事。我認為,瞭解這些駭客的心理,對於想要了解這個世界、想要知道如何面對正在浮現的問題的人來說,是必要的。

所以我想邀請各位來了解我的想法、我的動機,以及為什麼我認為像我這樣的駭客很重要,以及為什麼我們這群人很重要。

是什麼造就了好奇的駭客?

200小時的工作。這大概是我投資在這項計畫的時間。而且不是所有時間都在做高質量的工作,很多時間都是盯著一堆數字的黑底視窗並等待結果發生,但也有很多事很硬核的,像是每天超過8小時寫程式和閱讀科學論文,而且我沒有薪水。沒有人要我這麼做,也沒有人幫助我(除了Google給予硬體支援),我原本可以把這些時間花在朋友、學業,或其他任何事。

不是為了錢也不是被要求,那我為什麼要做呢? 我很想說是為了遵循內心偉大的倫理道德準則,一如第二段所提。我覺得大部分像我的人會以此解釋他們的動機,好像他們經過深思熟慮、肯為此負責。但這不是真的(至少對我而言不是)。

做這件事,就是因為他媽的很酷!

我覺得這就是好奇駭客的決定性特質。我做困難的、沒有明確產出且瘋狂的事,就只因為很酷(對我來說,還因為這很有趣滑稽)。好奇駭客之所以做這些事,是因為他們能。對像我這樣的人來說,做困難的事情會帶來由衷的喜悅,並不是因為簡單,而是因為困難(雖然有些人會太過火)。

GPT2不只是超級酷,也超級有趣,令我無法抗拒。對於某些事物的神祕之處你/妳或許沒有興趣,但是好奇駭客會因此上鉤。那些令人著迷的特點讓我們上癮。

這些好奇的駭客很重要,再重申一遍

這類駭客愛好玩耍,喜歡解構、重組困難且複雜的事物。像我這樣的人,拿著適合的科學或數學問題,就像貓遇上毛線球一樣。我們就是愛這套。(你/妳怎麼會覺得科學家們在他們經常打滾的場域是在受苦?)

而我也不例外。好奇的心、嬉鬧的態度、衷於解決問題的癮,交融成一種人格特質,你可以在一特定族群上看到:科學家。

我只是個學生,沒什麼說服力,但如果提到 林納斯·托瓦茲(Linus Torvalds)、 艾爾伯特‧愛因斯坦(Albert Einstein)和 理察·費曼(Richard Feynman)呢?(或者更直接: 比爾‧蓋茲(Bill Gates), 賴瑞·佩奇(Larry Page)和史蒂夫·沃茲尼克(Steve Wozniak)這些人?) 如果讀關於他們個性的文章,你/妳會驚訝地發現他們具備好多好奇駭客的因子。愛因斯坦是怎麼想到相對論的? 當他16歲時,想像和光一起旅行的情景。沒人付他錢,他只不過是覺得好玩。【譯按:Linus Torvalds是Linux之父、Albert Einstein和Richard Feynman是知名理論物理學家、Bill Gates是Microsoft創辦人之一、Larry Page是Google創辦人之一、Steve Wozniak是蘋果創辦人之一】

很多學術圈外的人認為科學家是一群嚴肅、正經的人,他們的研究必定有非常嚴謹的規劃表(你們這些學術人可能覺得很怪,但很多人都這麼覺得,畢竟研究對大眾而言是陌生之地)。有時候這是對的,但大部分都是錯的。最頂尖的科學家都是有創意、好奇,且通常,怪怪的。你/妳會重複看到科學家們解釋為何著迷科學,或者他們怎麼想到好點子:通常是由衷,而非外來。現今很多重要的科技成果皆來自某些人在實驗室隨意玩樂嘗試所生。記住一句Alex Jason的話:

「混時間和科學的唯一差別在於,紀錄」

好奇的駭客帶給我們各種工具、電腦、網路。他們創造許多東西,因此了解他們的想法,和了解政治人物的想法一樣重要(事實上非常的不一樣)。

然而,還有著另一個重要的理由:這樣特質可能會導致的負面影響。

駭客行為的陰暗面

好奇駭客創造網路以及很多了不起的東西,但談到AI時,我就不大想吹捧這件事,知道什麼東西絕對是好奇駭客們做出來的嗎? 原子彈。

費曼在他的書《別鬧了,費曼先生》談論曼哈頓計畫的方式就像 《國家諷刺》談及電影劇本。他對他的科學家同事們惡作劇,包含了一些行政機構的經驗。我記得我在青少年時期第一次看到時,唯一能想到的就是:「靠,太好玩了吧!」。不只是Feynman,許多科學家在曼哈頓計畫中也有類似的經驗。我完全能理解。一個人被批准參與當代最酷、最瘋狂的科技,且基本上沒有任何禁止、沒有預算限制,周圍都是當代最聰明和最酷的人們。對我來說這就是天堂。【譯按:《國家諷刺》 (National Lampoons)是一本存在於1970年至1998年間的美國喜劇雜誌,其引領了當時喜劇以及出版業的發展】

但是,在1945年6月16日,有許多牽涉其中的科學家目睹了那件事(結束第二次世界大戰的兩顆原子彈),引起了突兀、深沉的恐懼。

「我們做了什麼?」

一段來自Robert Oppenheimer令人顫慄的引述,深刻地描述:

「當你/妳看到一些技術上很甜美的東西,勇往直前地鑽研,而且你/妳在事後事情發生後才開始辯解應該要拿來做什麼。這情境就發生在原子彈這件事情上。」

這就是為什麼了解好奇的駭客們如何工作是多麼重要,如果你/妳是其中一員更是如此。

大部分好奇的駭客都是非常好、良善的人。在曼哈頓計畫中,確實一部份的人是鷹派,但是必須注意的是有多少前曼哈頓計畫科學家成為了重要的反核倡議者,因為他們了解自己所做所為錯誤之深。

我或許是其中最意圖最良善的人,從不想傷害任何人,而且從未。但這可能讓你/妳有安全的錯覺。「我不想傷害人,放輕鬆!我是好人,我的所作所為並不會傷害人。」。

但是許多好奇駭客,包含我自己,或多或少的被好奇心所奴役。有時候,當我狂熱於我最新AI作品時(GPT2不是我最怪的計畫,相信我),我暫緩片刻,數位龐克混合音樂在我耳機炸裂,想到:「我是不是成為了黑鏡的角色?」

我是反戰、人道主義者,如同你/妳能想像,但假設我身處在1940年代,美國政府提供我機會建造原子彈,在還沒發生戰爭時,我不知道我會不會拒絕。

我不想傷害人,這是理解好奇駭客時重要的事,就只是因為很酷。分裂堆砌的物質就能造成巨大的爆炸? 這真的他媽的很酷!

如果說好奇心真的會殺死一隻貓,那就…喵!

接納好奇的駭客

一定會有很多非常嚴肅的人看這篇文章並嗤之以鼻,說一些像是:「所以你現在是在合理化你殘酷、自私的天性,並貼上可愛的標籤? 你就不要做那些壞事嘛!」

這類話只不過像是能夠引來喝采,聽起來就很理智而且讓每個人點頭並鼓掌的話,但其實對現實一點幫助都沒有。我的論點則是,確實,壞人因為壞理由做壞事,而且確實有很多被事先提出是壞事。但是好奇的駭客並不是那種典型,他們做危險的事是因為不同原因。我們看到很多媒體描寫某些「傳統」性格特質導致危險行為(貪婪、虐待等等),但很少人注意到好奇駭客可能造成的危險。(如同Tony Stark在Marvel動畫宇宙是有名的例子。我常常因為表達完全理解他為何會在復仇者聯盟2中製造奧創而受到側目。很多人都人為他的行為非常愚蠢且難以理解)。每個人都了解壞人做壞事,但我們很難想像好人也可能做壞事(儘管在現實世界也是)。

我們因為前在危險而排斥好奇的駭客。我們妖魔化那些聰明或有良善動機的人,就因為他們所犯的短視近利的錯誤。好奇的駭客們已經為我們帶來了現今社會許多美好的事物,而他們也會繼續這麼做。因為他們停不下來,他們知道不能。

講這些並不是要批評好奇駭客,我希望這是一個互相了解、自我提升的請求。不管是否為好奇的駭客,我們都必須知道光明面與陰暗面。很多矽谷所發生的問題,就是因為那是一群好奇駭客們的聚集地,一個21世紀數位曼哈頓計畫。(再一次重申,對我來說像是天堂)。

對於不是好奇駭客的人們,我希望你/妳能了解他們的想法。凡事總有例外,但好奇的駭客們一般都不是壞人。他們通常是一群有良善的理想與目標的一群人,就像Yuval Harari (一位有名的矽谷評論家)所述:

「我遇過多位科技巨擘,他們基本上都是好人,他們不是匈奴之王阿提拉。在面臨眾多人類領導者中,你/妳會遇到更糟糕的」。

好奇的駭客會做壞事、危險的事,但是我們全都會。藉由彼此了解,我們能夠彼此諒解,並找到方法改善。

而對於身為好奇駭客的人們,我傳達的訊息很簡單:注意你/妳的陰暗面。你/妳可能不認為自己在做壞事,而我相信你/妳。我知道你/妳的行動完全來自愛玩的好奇心與對於人類樂觀的願景。不會有比那更純粹的東西了。但歷史總是給我們教訓,直到2014年,幾乎沒人把AI安全當成一回事。現在仍是沒有,儘管Stuart Russell 已經提出了非常有力的論述。我們需要更進一步。

我們不能排斥好奇的駭客,而是接納他們。我們必須把握他們的能力,並且找到方法管理風險。

因此我也試著盡淺薄之力改善。我原本可以直接把那1.5B模型丟到網路上,我非常的想。當第一次聽到OpenAI沒有釋出1.5B,我真的非常惱怒。資訊應該是免費的,我真的很想看,可惡!但當我有了神燈精靈,我緩了下來。在釋出它之前,我仔細思考我想做的事,依舊發現我想要釋出它,原因卻不僅僅是它很酷。但這也是為什麼我還在等,因為我能理解到或許我的邏輯有可怕的錯誤,在釐清以前,我不該釋出它。我已經接受了我的陰暗面以及想辦法如何處理它,並且負責。而我覺得這很棒,因為它還沒有造成任何傷害,沒有人會死於GPT2(應該吧)。但是在10年、20年之後,當我拿到PhD,會不會有一個新的曼哈頓計畫找上門?

希望我屆時還記得教訓。

【1】Babbling在文中的主要意涵是「 Let me call styles of talking (or music, etc.) that rely mostly on low order correlations “babbling”. Babbling isn’t meaningless, but to ignorant audiences it often appears to be based on a deeper understanding than is actually the case. When done well, babbling can be entertaining, comforting, titillating, or exciting. It just isn’t usually a good place to learn deep insight.」。Babbling代表的是「有意義的單句,彼此弱相關地組合,而得到的文本」,愚民乍聽之下通常認為煞有其事,Babbling可娛民、可慰人、可煽動,但總是缺少深層的洞見。

譯者群:高家祥、陳信宏、黃河洛

校稿協助:林澤宇、羅廣荃

--

--