Thursday, September 06, 2007

賽局的破綻:骨董花瓶值多少?

【撰文/巴蘇(Kaushik Basu);翻譯/翁秉仁】


(科學人/提供)


露西和彼特從遙遠的太平洋小島旅遊回來,結果發現他們各自購買的同款骨董給飛機震壞了。航空公司經理說他們很樂意賠償,只是有一點小問題,因為這個長相古怪的東西價值多少,他毫無概念。他認為直接向這兩人詢問價格沒什麼指望,因為兩位旅客一定會藉機哄抬價格。


於是,經理設計了一個比較複雜的方法。他要求兩位旅客在未經討論的情況下,寫下這個骨董的價格,好比2~100之間的整數值。如果兩個人寫的價格一樣,他就以此為真正的價格賠償他們;但是如果他們寫的價格不同,他就假設少一點的數字才是真正的價格,而價格寫高的旅客則是有意欺瞞。在這種情況下,這位經理會以低的價格來賠償他們,再加上一些獎勵和懲罰,因為價格寫低的旅客誠實,可以多得到2元,而價格寫高的旅客則被罰2元。舉例來說,如果露西寫的是46元,彼特寫的是100元,結果就是露西得到48元,彼特得到44元。

露西和彼特會寫下什麼數字呢?如果是你,會選哪個數字呢?


像這樣,單人或多人要做出選擇,並依照大家的選擇來計算報酬的情境,稱為「賽局」。我在1994年,設計了這個稱為「旅人兩難」(Traveler掇 Dilemma)的賽局情境。當時我有好幾個目的:質疑狹隘的理性行為與認知過程的觀點,這是經濟學家和許多政治學家採納的觀點;挑戰傳統經濟學的自由主義假設;以及凸顯一個理性的邏輯悖論。


旅人兩難可以達成我這些目標,因為依照賽局理論的邏輯,所得出的最佳選擇是2,但是,大部份人都選擇100或接近100的數,這包括不用邏輯思考的人,也包括那些十分清楚自己正明顯背離「理性」選擇的人,而且,正因為他們不自囿於這樣的理性,反而獲得更多的報酬。因此,在玩旅人兩難的遊戲時,選擇不遵從理性的背後,有著某種理性。


自從我發明了這個遊戲後,旅人兩難就有了自己的生命,許多研究者擴展這個遊戲,並發表許多實驗的結果,這些研究產生許多對人類決策的見解。不過,到底要如何在旅人兩難上運用邏輯和推理,仍然還有些未解的問題。


選最小的數,才是贏家?

要知道為什麼2是合乎邏輯的結論,我們來揣測露西可能的思路。露西的第一個想法是,她應該寫下最大可能的數字──100,如果彼特和她一樣貪心的話,她就會賺到100元(如果骨董比100元便宜很多,她可能正興高采烈地感謝航空公司經理愚蠢的設計)。


但很快的,露西靈光一現,想到如果自己選擇99的話,豈不是可以再多賺一點,因為這樣選可以得到101元。不過,彼特顯然也會想到這個要點,這樣兩人就變成都選擇99,於是露西得到的是99元。如果彼特選99,這時露西選98會比較好,因為可以得到100元。但是同樣的道理會讓彼特也寫下98,這時她可以選97,贏得99元,以此類推。結果,這樣的推論會讓這對旅客的選擇一路下墜,最後停在可容許的最小數──2。露西真的會按照這種思路選擇2的可能性似乎非常低,但這不重要(事實上這正是重點),這是邏輯思考的結果。


上述是賽局理論專家普遍使用的分析方式,稱為逆向歸納法(backward induction)。運用逆向歸納法,可以預測出玩者最後的選擇是2,因此可以獲得2元的報酬(這樣的結果或許可以解釋,航空公司經理的職場生涯這麼風光的原因)。針對旅人兩難,幾乎所有賽局理論所使用的模型,都預測出一樣的結果。如果這兩位旅客根本不去想選小的數有什麼好處,一開頭傻傻的選100,就可以各多賺98元。


旅人兩難與更流行的囚犯兩難有關。囚犯兩難大致上是說,假設有一樁嚴重的犯罪事件,警方逮捕了兩名嫌犯並隔離偵訊,他們兩人各自可以選擇歸罪對方(因此可以獲得從寬量刑),也可以選擇保持緘默(如果另外那位嫌犯也緘默,對這個案子,警方就會罪證不足)。囚犯兩難和我們兩位旅客紀念品損壞的故事,情節似乎相去很遠。不過,如果用2和3來取代原來旅人兩難中的2~100,那麼在數學上,囚犯兩難各種選擇的報酬情況,和這個旅人兩難的改編版就完全一樣。

賽局理論專家平常所分析的賽局,完全沒有引人入勝、多采多姿的故事情節,而是一個所謂的償付矩陣(pay-off matrix),也就是包含所有可能的選擇與各人報酬這些相關資訊的表格(請見右頁〈旅人兩難的償付矩陣〉)。例如,在該表格中,直行是露西的可能選擇,橫列是彼特的可能選擇,而每一個方格中的數對,則表示他們各自的償付報酬。


除了名稱不同,囚犯兩難和雙值版本的旅人兩難呈現給玩家的,並非真正的兩難,因為每位參與者都知道不折不扣的正確選擇是2(在囚犯的故事裡,這相當於選擇歸罪對方)。這個選擇稱為優勢選擇,因為不管對方選什麼,這都是最好的選擇。如果露西選2而不選3,則當彼特選3時,她將得到4元而不是3元;當彼特選擇2時,她將得到2元,而不是0元。


相較之下,原始版的旅人兩難並沒有優勢選擇,如果彼特選擇2或3,那麼露西選2最好,不過一旦彼特選的是4~100之間的數,那麼露西就應該選某個比2大的數。


研究償付矩陣時,賽局理論專家最倚賴的是納許均衡解(Nash equilibrium)的概念,納許(John F. Nash, Jr.)是美國普林斯頓大學的教授,也就是電影「美麗境界」中,羅素克洛扮演的角色。符合納許均衡解的結果是,任何一方都無法藉由單方面改變自己的選擇而取得更好的報酬。例如旅人兩難中的結果為(100, 100),其中第一個數是露西的選擇,第二個數是彼特的選擇,當露西改變自己的選擇為99時,結果會是(99, 100),而她可因此獲得101元,由於露西的改變使自己獲得更高的報酬,因此(100, 100)不是納許均衡解。

旅人兩難只有一個納許均衡解──(2, 2),也就是露西和彼特都選擇2的情況。由於大家普遍使用納許均衡解的想法,因此許多針對旅人兩難的形式分析,才都會預測出這個結果。


賽局理論的確還有其他的均衡概念可以用,例如嚴格均衡(strict equilibrium)、可理性化解(rationalizable solution)、完全均衡(perfect equilibrium)、強均衡(strong equilibrium)等。但針對旅人兩難運用這些均衡概念的答案,全部都是(2, 2),而這正是麻煩的地方。大部份人反躬自省,總覺得自己應該會選擇更大的數,而且平均來說所得到的報酬也應該遠大於2。這表示我們的直觀似乎和整個賽局理論有矛盾。


經濟學的意涵

這個遊戲以及我們對結果的直觀預測,也違背了經濟學家的理念。早期的經濟學執著於自由主義的假設,相信應該放任個人活動,因為個人的自私選擇,將導致整個經濟有效率的運作。後來賽局理論方法的興起,相當程度地把經濟學從這個假設切割出來。但是賽局理論方法本身,長期以來也是奠基於人類能夠做自私、理性選擇的公設,這才是賽局理論可以預測的。旅人兩難一方面侵蝕了自由主義者的想法,也就是不受拘束的自私將有利於經濟,另一方面也破壞了賽局理論的信條,亦即人類既自私又理性。


在旅人兩難中,最有「效益」的結果是兩位遊客都選擇100的狀況,因為這樣兩人的總獲利最大。但是自由主義者的自私想法,會讓玩家從100轉移到較小的數值,降低了整體效益,只為了自己希望多拿到一點。


如果人們選擇的結果不是納許均衡解(2),經濟學家就應該修改理性行為的假設。當然,旅人兩難並非唯一挑戰人類行為總是自私又理性的賽局(見2002年4月號〈公平壓倒一切?〉)。不過,旅人兩難多了一個令人迷惑的重點,就算是玩家只考慮自己的獲益,他們仍然不認為形式分析所預測的玩法是理性的。


就理解現實世界的情況來說,旅人兩難還有更多的意涵。這個遊戲幫忙我們釐清武器競賽的逐步過程,這個過程將我們一步步帶往更糟的結果。研究者也試圖擴大旅人兩難的應用,去理解兩家競爭的公司如何競相削價、互受其害的過程(就這點而言,受惠的是買他們產品的消費者)。


由這些考慮可以得出兩個問題:人們實際上是怎麼玩這個遊戲的?如果大多數人的選擇遠大於2,我們怎麼解釋為何賽局理論無法預測出這樣的結果?我們對前面的問題已經頗有了解,但是對後面的問題則所知不多...



【更多精采內容~~請閱《科學人》雜誌 賽局的破綻 2007年7月號】