經典賽局:囚犯困境模型

Eason Wu
Nov 13, 2021

--

著名的囚犯困境Prisoner’s Dilemma)作為賽局理論Game Theory)的經典案例,一直都有著能夠吸引普羅大眾的能力,原因正是因為這個模型簡單易懂又能引人思考。囚犯困境能讓人在完全沒有賽局理論背景知識的情況下透過自己的思考得出解答,並對人們的決策行為有不同視角的理解,可以說是認識賽局理論的入門磚。

但畢竟是簡化後的模型,要從這之中得到一些啟發就沒有那麼簡單了。

所謂賽局理論,說的淺顯易懂一點就是在討論多方決策行為之間的交互影響,最後產生影響各方利弊的結果。賽局理論通常會用簡化後的模型來說明一段複雜的概念,囚犯困境在這之中就是被簡化到極限的最經典模型。

經典之所以經典並不在於他高深晦澀,而是他能清楚又不費力地傳達複雜的概念。

最近因為 Olympus DAO 以及他的各種 fork 爆紅的關係導致囚犯困境又浮上了檯面,但實在充斥太多一知半解的討論,所以希望這篇文章能帶來一些幫助,這也是開始寫本文的動機。

囚犯困境模型

如前述,賽局理論有「多方」「決策行為」「交互影響」「利弊結果」這些要件,那麼在介紹一個模型之前,勢必要先來點名詞定義:

  • 玩家(Player):這個模型的所有參與者,簡化為 A 與 B 兩人
  • 策略(Strategy):玩家可以做出的所有選擇,簡化為只有兩種
  • 結果(Outcome):玩家做出策略後導致的結果,每個玩家都會有屬於自己的結果,通常會量化成數值來表示好壞與程度

再來就是比較常見的囚犯困境表格:

左邊數字是左邊玩家,右邊數字是上面玩家

囚犯困境都有著相同的故事,讓我從維基百科複製一下:

警方逮捕 A、B 兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:

若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監 10年。

若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監 3年。

若二人都互相檢舉(互相「背叛」),則二人同樣判監 5年。

(法治國家才不會沒證據又關人 3 年,但先不要吐槽這個故事拜託)

根據這個故事,我們現在知道了表格中的數字代表要被關幾年。也就是說,在這個囚犯困境模型中,玩家自己的那個數字自然是越小越好,而這當然會影響玩家如何選擇策略。

何謂優勢策略?

在思考 A 或 B 該怎麼選擇策略時,必須注意到很重要的一點就是 A 和 B 並不知道對方會選擇什麼策略,而且 A 和 B 都知道所有策略所帶來的所有結果,就想成警察拿著上面這張表格去找他們個別約談吧。(另外,可以試著思考假如兩人在同一房間但 A 先決定策略呢)

回到模型,在不知道其他玩家策略的前提下,我們來看看 B 應該如何選擇。

不用看了,這是同一張圖

— 在 A 選擇「合作」的情況下:
B 選擇合作為 3,選擇背叛為 0,這時 B 應該選擇背叛

— 在 A 選擇「背叛」的情況下:
B 選擇合作為 10,選擇背叛為 5,這時 B 應該選擇背叛

讀者可以自行推導看看假如你是 A 的話會有怎麼樣的思考過程,而結果就跟 B 是一樣的。眼尖的人應該會發現這個盤面是對稱的,所以 A 跟 B 的思考脈絡會完全相同。

在不管其他玩家會選擇哪種策略的情況下,若有一個策略是「比其他策略都要好」的策略,那麼該策略就稱為優勢策略(Dominant Strategy)。在模型中,A 和 B 的優勢策略都是背叛。

納許均衡 Nash Equilibrium

既然 A 和 B 的優勢策略都是背叛,那麼也就是說最後會來到(5, 5)這個結果,這個點被稱為納許均衡Nash Equilibrium)。

維基百科上對他的描述是這樣的:

在賽局理論中,納許均衡是指在包含兩個或以上參與者的非合作賽局(Non-cooperative game)中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以透過改變自身策略使自身受益時的一個概念解。

簡單來說就是若所有玩家都擁有優勢策略,納許均衡就是優勢策略的集合點,也可以說納許均衡就是所有玩家的策略均衡點,然而

納許均衡不見得就是賽局的最適解

這一點顯而易見。沒錯,所有玩家的策略均衡點並不代表就是對玩家最有利的結果。直接看盤面就能知道(3, 3)比起納許均衡的(5, 5)來說對所有玩家都更好,但玩家在賽局中無法合作 aka 非合作賽局,而卻只能以利己角度去考慮各種策略的優劣。當所有玩家都能以上帝視角看到這盤面時,策略的均衡點就注定落在差勁的位置了,這是盤面的天生限制,也就是現實條件所導致的結局,策略與均衡可說基於這之上的必然。

綜觀整個賽局可以得到這樣的啟發,那對個人來說該怎麼理解呢?如果你往前看一點,會發現在納許均衡之前談的是優勢策略,而納許均衡是由優勢策略得來的均衡點,也就是說

選擇優勢策略不見得能獲得利益最大化的結果

A 和 B 各自都選擇了正是在利己、理性、盤面資訊充足狀況下的最佳選擇,然而在所有可能性中的最大利益點卻無法透過優勢策略來確保,優勢策略只是在考慮了所有玩家的策略可能之後所得出的最佳策略。

結尾

本來只是想介紹一下囚犯困境,殊不知寫了這麼多,雖然不是結尾該有的樣子,但都說了這是入門磚嘛,所以接下來要放一些超展開了。

如果在現實世界中遇到類似囚犯困境的兩難,該怎麼利益最大化?現實世界的選擇不會如此簡化,所以有幾種做法:把非合作賽局變成合作賽局,或是改變盤面配置(前提是你強大到能在現實世界使用環境魔法卡),如此一來納許均衡就不會是較差的(5, 5)。

Olympus DAO 的賽局理論?我看了一下白皮書,我認為基本上就是亂寫,有人說是 well-designed Ponzi 這我覺得還比較接近。

零和賽局非零和賽局有著很大的不同,可以思考一下現實世界中的各種場域究竟是零和還是非零和,例如股票或虛擬貨幣。

賽局理論算是源自經濟學,在敲開入門磚後如果還有興趣,接下來可以談的是柏拉圖最適Pareto Optimality)。注意,此柏拉圖非彼柏拉圖,這位是 19 世紀的義大利經濟學家 Vilfredo Pareto,不是古希臘哲學家 Plato。在囚犯困境中並不存在柏拉圖最適,畢竟路都被 Temptation 的報酬卡死了,但柏拉圖最適在賽局理論和個體經濟學中都是重要的概念。

從柏拉圖最適再往經濟學延伸會有 Total Welfare 與 Welfare Distribution 的難題,囚犯困境往賽局延伸下去則會有動態賽局、重複賽局、拍賣賽局等。

言盡於此,入門磚我就放在這了。

--

--