博弈論 囚徒困境與重複囚徒困境的啟示

2021-09-21 01:50:51 字數 1991 閱讀 7885

博弈論-囚徒困境與重複囚徒困境的啟示

「囚徒困境」

囚徒困境(prisoner』s dilemma):討論的是兩個**的囚徒之間的一種博弈,它闡明了為什麼「在合作對雙方都有利時,保持合作也是困難的」。

囚徒困境的故事講的是,兩個嫌疑犯作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中乙個坦白而另乙個抵賴,坦白的放出去,抵賴的判十年。於是,每個囚徒都面臨兩種選擇:坦白或抵賴。

b-坦白 b-抵賴

a-坦白 8,8 0,10

a-抵賴 10,0 1,1

然而,不管同夥選擇什麼,每個囚徒的最優選擇是坦白:如果同夥抵賴、自己坦白的話放出去,不坦白的話判一年,坦白比不坦白好;如果同夥坦白、自己坦白的話判八年,不坦白的話判十年,坦白還是比不坦白好。最終的結果,兩個嫌疑犯都選擇坦白,各判刑八年。

在囚徒困境中,如果兩人選擇合作,即兩人都抵賴,各判一年,顯然是最好的結果。但由於大家都優先考慮自己的最優選擇,導致了最終整體選擇並不是最好的。

囚徒困境所反映出的深刻問題是,個人利益的最大化並不能保證集體利益的最大化,自以為聰明的人可能會作繭自縛。

「重複囚徒困境」與「艾克斯羅德博弈論實驗」

囚徒困境是乙個一次性的博弈實驗,如果增加博弈的次數,讓每個參與者都有機會去「懲罰」對方前乙個回合的行為,此時每個參與者的決策可能會發生變化。其中最有名的實驗莫過於艾克斯羅德的博弈實驗。

艾克斯羅德組織了一場計算機競賽:任何想參加這個計算機競賽的人都扮演「囚徒困境」案例中乙個囚犯的角色。他們把自己的策略編入電腦程式,然後隨機的與其他人進行囚徒困境博弈,每次博弈完畢後會獲得一定的分數,並且每個人在進行博弈前都能夠清楚的知道對方的歷史博弈情況,每個參賽選手都會進行200次博弈對決。

博弈分數的設計如下:

對方-好意 對方-惡意

自己-好意 2,2 0,3

自己-惡意 3,0 1,1

初看會發現,如果這是乙個一次性博弈,不管對方選擇好意還是惡意,自己選擇惡意都是最優的,都將贏得更高的分數。但如果每個人都這麼想,每次博弈大家都只增加1分,每個人分數的增長都會非常的緩慢。實驗的最終結果是怎麼樣的呢?採取什麼策略會贏得最高的分數呢?

「艾克斯羅德博弈論實驗」的結果

艾克斯羅德博弈論實驗,計算機競賽提交上來的程式包含了各種複雜的策略。讓人感到吃驚的是,競賽的桂冠屬於其中最簡單的策略:一報還一報(tit for tat)。這是多倫多大學心理學家阿納托拉帕波特提交上來的策略。

一報還一報的策略是這樣的:

1)它總是以合作開局

2)但從此以後就採取以其人之道還治其人之身的策略

這個策略永遠不先背叛對方,從這個意義上來說它是「善意的」。它會在下一輪中對對手的前一次合作給予回報(哪怕以前這個對手曾經背叛過它),從這個意義上來說它是「寬容的」。但它會採取背叛的行動來懲罰對手前一次的背叛,從這個意義上來說它又是「強硬的」。而且,它的策略極為簡單,對手程式一望便知其用意何在,從這個意義來說它又是「簡單的」。

為了證明一報還一報策略的勝利不只是一種僥倖,艾克斯羅德又舉行了多場競賽,並邀請了更多的人,但這個策略一次又一次的奪魁,競賽的結論無可爭議。

重複囚徒困境結論

人的一生中會有非常多次的選擇,有時候吃虧,有時候佔了便宜。善意的決策可能吃虧,又或者惡意的背叛可能佔便宜,但所有的過往,都會成為別人今後和你合作時進行決策的依據。

好人,更確切地說,具備以下特點的人,將會成為最終的贏家

1)善意的:ta不會首先背叛別人

2)寬容的:別人曾經背叛過ta,但前一次合作是善意的,ta會原諒別人

3)強硬的:前一次合作背叛了ta,ta下一次合作會進行懲罰

4)簡單純粹的:簡單純粹的原則讓彼此都更加輕鬆

博弈論 囚徒困境與重複囚徒困境的啟示

囚徒困境 囚徒困境 prisoner s dilemma 討論的是兩個 的囚徒之間的一種博弈,它闡明了為什麼 在合作對雙方都有利時,保持合作也是困難的 囚徒困境的故事講的是,兩個嫌疑犯作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人 如果兩人都抵賴,...

囚徒困境(博弈論的詭計)

在史達林時代的蘇聯,有一位樂隊指揮坐火車前往下乙個演出地點。正當他在車上翻看當晚就要指揮演奏的作品樂譜時。兩名克格勃將他作為間諜逮捕了。他們以為那樂譜是某種密碼,這位樂隊指揮爭辯說那只是柴可夫斯基的小提琴協奏曲,卻無濟於事。在樂隊指揮被投入牢房的第二天,審問者自鳴得意地走進來說 我看你最好還是老實招...

博弈論讀書筆記(一) 囚徒困境

囚徒困境的主要內容是兩個共謀的犯人被抓緊監獄,並且分別關押在不同的房間裡,這個時候他們無法進行有效溝通。警察也沒有找到足夠的犯罪證據,所以分別對兩個犯人說 如果兩人都對自己的犯罪事實抵賴,那麼將各判刑1年 如果兩人都坦白自己的犯罪事實,每個人都會被判8年 如果兩人中一人坦白而另一人始終抵賴,那麼坦白...