博弈論和囚徒困境中的邏輯 如何利用資訊與合作

2021-09-02 14:16:48 字數 4426 閱讀 1744

我們先來思考乙個小問題:

納什均衡

納什均衡(nash equilibrium)由美國數學家納什提出,在多人博弈的時候,如果其他人不改變策略,不論我怎麼改變也不能增加收益,所有人都是這樣,也就達到了納什均衡。換句話說,納什均衡實現了整體利益的最大化。

想要達到納什均衡,找到整體最優的方案,最重要的一點就是共享資訊。

我們拿出最為著名的囚徒困境舉例:

警察抓了兩個嫌疑犯,在他們沒有事先串列埠供的情況下,分開審問。如果兩個罪犯都沉默,各判1年;互相揭發,各判8年;如果乙個揭發乙個沉默,那麼揭發的那個釋放,沉默的那個判10年。ab怎麼選擇才對自己最有利?

如果審問並不是分開進行,而是二人一起,結果又會如何呢?

開始時a,b兩人互不吭聲,馬上,在明確了對方暫未交待的情況下,a有兩種選擇:

揭發b,如果沉默b會被判10年,所以b也會揭發a,結果兩人都判8年;

保持沉默,這時b如果揭發a,會形成1裡的結果,所以b應該選擇更好的方案,也就是同樣保持沉默。這樣一來,兩人各判1年。

稍作思考,a選擇了沉默,b當然也做出同樣的分析。最後兩人只被各判1年,整體的納什均衡達成。

由此可見,納什均衡的達成需要足夠的資訊,如果資訊不足,人往往就會做出損人利己的次優選擇,而錯過利於大局的最優方案。

近期中美**戰囚徒困境分析:

兩個國家,在關稅上可以有以兩個選擇:

提高關稅,以保護自己的商品。(背叛)

與對方達成關稅協定,降低關稅以利各自商品流通。(合作)

當一國因某些因素不遵守關稅協定,獨自提高關稅(背叛),另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後二國又重新達成關稅協定(重複博弈的結果是將發現共同合作利益最大)。

多階資訊

我們已經知道,掌握更多資訊才能知己知彼,百戰不殆,但不是所有資訊都那麼直白,有時候看似無用的資訊背後還有我們需要的東西。

第一把我和hulk都出了剪刀,這是我知道的第一條資訊,好像沒有什麼卵用;

然後呢?根據規則,我知道下把我只能出錘子或者布,這是其二;

同樣,我知道hulk下一把也只能出錘子或者布,這是第三條。

由於我和hulk都只能出錘子或者布,出哪乙個更好呢?答案是絕對的,布贏錘子,出布!終於理順了,但這還不是最終答案。

同樣地,hulk也想到了這一點。按理來說,下一把我和hulk都應該出布。聰明的我倆在出完剪刀之後就立即推理出了這一點。

現在,我知道hulk得到了這個結論,hulk也知道我得到了相同的結論。更進一步,我也知道hulk知道我得到了這一結論。之後,我們就像兩台執行著一模一樣程式的超級電腦,陷入了一種「知道」的迴圈,那就是我知道hulk知道我知道…hulk知道下一把我倆都應該出布,這是橫向推理。

豎向推理,我可以推出第三把我們都應該出石頭(hulk也會這樣推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石頭…

好了!既然這樣,遊戲的整個走勢在第一把出完剪刀之後就已經完全確定了,不僅因為我倆各自推出了結論,還因為我們知道對方也知道了這個結論。

所以誰也不能獲勝,第一把是平局的話遊戲就沒有進行的必要了,聰明的我倆壓根不會進行第二輪划拳。這個決定,僅憑前三條資訊是得不出來的,也就是說,我知道這些還不夠,我還得知道「他知道」。

在這個小問題裡,前三條資訊我們看作是一階資訊(我直接知道的事),而「我知道hulk知道***」,是乙個二階資訊。以此類推,「我知道他知道我知道***」是三階資訊,但是遊戲一共只有兩人參加,所以大於二階的資訊和二階是等效的。

當然,你也可以試著分析不同情況下,囚徒困境裡的資訊階數。

共識

如果你已經完全理解了多階資訊的意思,那我們就可以開始最後乙個問題的推理了(難)。

藍眼人問題:

有乙個島上住著1000個島民。其中900個是紅眼,100個是藍眼。島上的人無法知道自己眼睛的顏色,也不准談論眼睛的顏色。出於宗教原因,島民一旦知道自己眼睛的顏色,就會在第二天自殺。一天,島上來了乙個藍眼睛遊客,由於不知道島上的規矩,他在一次全島民的聚會中說:「很高興看到這裡有和我一樣是藍眼睛的人。「

假設島民足夠聰明, 具有完全理性,遊客的話會產生什麼後果?

好了,你已經知道答案了

有了前面的基礎,我們直接跳到邏輯裡去。

假如我是其中乙個藍眼人1號,通過互相觀察,我可以知道2號是藍眼,2號也可以知道3號是,3號知道4號…這些是一階資訊;接著我也知道2號知道3號是藍眼,這是二階;一直往後,我能知道2號知道3號知道…知道100號是藍眼,這是99階資訊。

怎麼少了一階?因為「100號知道我是藍眼「是我無法確定的事,畢竟我不知道自己眼睛的顏色。但是我能肯定其他99個人都能看到至少98個藍眼人,只是他們暫時不知道自己也是藍眼人。

這時推理就開始了。

假如島上只有1個藍眼人(與事實不符),遊客說完話之後他也就知道了自己眼睛的顏色,那麼他會在之後一天自殺,自殺由一階資訊導致。

如果有2個(與事實不符),一天後他們會觀察對方是否自殺,如果對方自殺,那麼他是唯一的藍眼人,理由同上;如果不是,說明對方還看到了乙個我沒看到的藍眼人,那這個藍眼人只可能是我自己!於是「我知道了他知道我是藍眼人「這個二階資訊,兩人可以做出同樣的推理,於是第二天兩人一起自殺。

我殺我自己 。我們用的是藍眼~ credit: b站up主 薛定餓了嗎

如果有99個藍眼人(與我看到的相符),99天後還是無事發生,這時我獲得了乙個一百階資訊,那就是「2號知道3號知道…知道100號知道我(1號)是藍眼人「!其他99人可以做出同樣的推理,這時100個藍眼人都確定了自己眼睛的顏色,於是在第100天一起自殺,這也就是問題的答案。

到這裡,我們終於做完了所有的思考題,興奮之餘,我們把不同階數的資訊做乙個分類。

如果有 n 個人,每個人都知道的 n 階資訊被叫做 common knowledge(袁嵐峰博士譯作強共識),少於 n 階的資訊被叫做 mutual knowledge,譯作弱共識。

在藍眼人問題裡,遊客說話之前,「島上有藍眼人「在100個藍眼人圈子裡還是乙個弱共識,只有99階,即大家都知道,但不確定別人知不知道自己;遊客說話之後第99天,這句話變成了強共識,這時大家都知道所有人的眼睛顏色。所以遊客帶來的資訊是乙個99天後才能獲得的,高達100階的資訊。

帽子問題

有一群人圍坐在一起,為了便於分析,假定只有4人(這與人數多少無關,可作同樣分析)。每個人頭戴一頂帽子,帽子為紅色的還是白色的紅色和白色兩種,每個人看不到自己帽子的顏色,但能看到別人帽子的顏色。因此此時他不能判定出自己頭上的帽子的顏色。

為了分析的方便,我們假定這4個人均戴的是紅色的帽子。這時候,乙個局外人來到他們的群體當中,對他們說:「你們其中至少一位頭戴的是紅色的帽子。」當他說了這句話後,他問:「你們知道你們頭上的帽子的顏色嗎?」4個人都說「不知道」;這個局外人第二次問:「你們知道你們頭上的帽子的顏色嗎?」4個人又都說「不知道」。局外人第三次問:「你們知道你們頭上的帽子的顏色嗎?」4個人又說「不知道」。局外人又問第四次:「你們知道你們頭上的帽子的顏色嗎?」這時4個人均說:「知道了!」

你能知道為什麼嗎?

當局外人未宣布「至少乙個人戴的是紅帽子」時,這個事實其實每個人都知道了,因為每個人看到其他3個人的帽子都是紅色的,但每個人不知道其他人是否知道這個事實,即這個事實沒有成為公共知識。而當這個局外人宣布了之後,「至少乙個人帽子是紅色的」便成了公共知識。此時不僅每個人知道「至少乙個人的帽子是紅色的」,每個人還知道其他人知道他知道這個事實……

局外人第一次問時,由於每個人面對的其他3個人都是紅色的帽子,每個人當然不能肯定自己頭上的帽子是什麼顏色,於是均回答「不知道」。此時,如果只有1個人戴紅色的帽子,那麼這個人因面對3個戴白色的帽子,他肯定知道自己的帽子顏色。因此,當4個人均回答「不知道」時意味著「至少有2人戴的是紅色的帽子」,而且這也是公共知識。

當局外人第二次問時,如果只有2人戴的是紅色的帽子,這2人就會回答說「知道」——因為他們各自面對的是1個戴紅色帽子的人。由於每個人面對的是不止乙個戴紅色帽子的人,因此當局外人第二次問時,他們只能回答「不知道」。——此時的「不知道」,意味著「至少3個人戴紅色的帽子」,並且它成為公共知識。

同樣,局外人第三次問時,他們均回答「不知道」,意味著4個人均戴的是紅色的帽子。因此,當局外人第四次問時,他們就知道宣布每個人頭上均戴的是紅色的帽子,於是,他們回答「知道」。

在這個過程中,當局外人首先宣布「其中至少乙個人的帽子是紅色的」,以及第

二、第三、第四次回答的時候,無論是回答「知道」還是「不知道」——它們構成公共知識——構成所有人推理的前提,在這個過程中,每個人均在推理。

這就是「帽子的顏色問題」。本人將這個問題簡化了。原來的問題比較複雜。它是這樣的:

有乙個遊戲,有乙個主持人和一群人(假定有n人),戴了兩種顏色的帽子,每個人的帽子的顏色或者是紅色或者是白色,但每個人不能看到自己的帽子的顏色卻看得到其他人的帽子的顏色。遊戲的主持人說:「你們中至少乙個人的帽子是紅色的。」主持人開始一次次地問:「你們知道不知道自己的帽子的顏色?」現在的問題是:當主持人問到第幾次時,才有人說「知道」?並且多少人說「知道」?

據說,這個問題在20世紀曾風靡歐美。

囚徒困境(博弈論的詭計)

在史達林時代的蘇聯,有一位樂隊指揮坐火車前往下乙個演出地點。正當他在車上翻看當晚就要指揮演奏的作品樂譜時。兩名克格勃將他作為間諜逮捕了。他們以為那樂譜是某種密碼,這位樂隊指揮爭辯說那只是柴可夫斯基的小提琴協奏曲,卻無濟於事。在樂隊指揮被投入牢房的第二天,審問者自鳴得意地走進來說 我看你最好還是老實招...

博弈論 囚徒困境與重複囚徒困境的啟示

囚徒困境 囚徒困境 prisoner s dilemma 討論的是兩個 的囚徒之間的一種博弈,它闡明了為什麼 在合作對雙方都有利時,保持合作也是困難的 囚徒困境的故事講的是,兩個嫌疑犯作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人 如果兩人都抵賴,...

博弈論 囚徒困境與重複囚徒困境的啟示

博弈論 囚徒困境與重複囚徒困境的啟示 囚徒困境 囚徒困境 prisoner s dilemma 討論的是兩個 的囚徒之間的一種博弈,它闡明了為什麼 在合作對雙方都有利時,保持合作也是困難的 囚徒困境的故事講的是,兩個嫌疑犯作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的...