囚徒困境（博弈論的詭計）

在史達林時代的蘇聯，有一位樂隊指揮坐火車前往下乙個演出地點。正當他在車上翻看當晚就要指揮演奏的作品樂譜時。兩名克格勃將他作為間諜逮捕了。他們以為那樂譜是某種密碼，這位樂隊指揮爭辯說那只是柴可夫斯基的小提琴協奏曲，卻無濟於事。在樂隊指揮被投入牢房的第二天，審問者自鳴得意地走進來說：「我看你最好還是老實招了吧，我們已經抓住你的朋友柴可夫斯基了．他這會兒正向我們交代呢。你如果再不招就槍斃了你。如果交代了，只判你10年。」

笑過之後，每個人都會思考其中所蘊涵的東西。但是如果認為這個笑話僅僅諷刺了克格勃特務的無知與無恥，那是不夠的。事實上，克格勃們的花招，是想運用博弈論中囚徒困境理論，達到自己的目的。雖然他們未必知道博弈論，但是他們明顯企圖運用其中的布局，使樂隊指揮被迫選擇招供。

2023年，擔任史丹福大學客座教授的數學家圖克(tucker)，給一些心理學家解釋他正在研究的完全資訊靜態博弈問題，為了更形象地說明博弈過程，他用兩個犯罪嫌疑人的故事構造了乙個博弈模型．即囚徒困境模型。

這一模型的過程具體是這樣的：兩個共同偷竊的犯罪嫌疑人甲和乙被帶進警察局**對兩名犯罪嫌疑人實行隔離關押，隔離審訊，每個犯罪嫌疑人都無法觀察到同伴的選擇。

**懷疑他們作案，但手中並沒有掌握確鑿證據，於是明確地分別告知兩名犯罪嫌疑人：對他們犯罪事實的認定及相應的量刑完全取決於他們自己的供認。如果其中一方與**合作，供認偷竊之事．而對方抵賴．供認方將不受懲罰，無罪釋放．另一方則會被判重刑10年；如果雙方都與**合作共同供認，各被判刑5年；而如果雙方均不認罪．因為警察找不到其他證據，則無罪釋放。

兩名囚徒面臨的選擇及其帶來的後果組合可以用表2·i來表示：

甲/乙抵賴（乙）供認（乙）

抵賴（甲）無罪（甲）/無罪（乙） 10年（甲）/5年（乙）

供認（甲）無罪（甲）/10年（乙） 5年（甲）/5年（乙）

表2．1 囚徒困境博弈收益矩陣

哪一種選擇對犯罪嫌疑人更有利呢?

從上表中可以知道：每個犯罪嫌疑人都有兩種可供選擇的策略：供認或抵賴。而且，每個犯罪嫌疑人選擇的最優策略不依賴於其同夥的策略選擇。

如果甲選擇抵賴．那麼就可能會出現兩種情況：如果乙選擇供認．那麼甲將被加重懲罰．判刑10年．而乙則無罪釋放：如果乙也同樣選擇抵賴，那麼他們兩個都將因證據不足而被釋放。很顯然．這第二種結果對於兩個人都是最有利的但是．因為**沒有把兩名嫌疑人放在一間囚室裡．因而這種合作難以順利進行．使得結果**的不確定性加大．或者說增加了抵賴合作的風險性（10年或無罪）。

如果甲選擇供認，則如果乙選擇抵賴，乙將被判刑10年，而甲將無罪釋放；而如果乙也選擇供認，則雙方各判5年。也就是對於甲來說，在不知道乙的選擇情況下，供認的收益相對更大（5年或無罪）。

因此，基於人是理性的這一前提。由於犯罪嫌疑人不知道對方的想法，最理性的博弈策略，就是選擇供認。這時的策略．我們可以稱為佔優策略。而如果所有參與人都有佔優策略存在，那麼博弈將在所有參與人的佔優策略的基礎上達到均衡．這種均衡稱為佔優策略均衡。

與佔優策略相對應，劣勢策略則是指在博弈中，不論其他參與人採取什麼策略．某一參與人可能採取的策略中，對自己嚴格不利的策略。劣勢策略是我們在日常生活中不應該選擇的行動。

有乙個要注意的問題是，採用優勢策略得到的最壞結果，並不一定比採用另外乙個策略得到的最佳結果要好。這是很多博弈論普及書中容易出錯的乙個問題。應該說，參與人採用優勢策略時．無論對方採取任何策略總能夠顯示出優勢。

由於囚徒困境的模型是如此有趣和簡潔．不僅給人們留下了深刻的印象，而且迅速不脛而走．成為乙個被人們廣為談論和研究的博弈模型。在我們開頭的那個笑話中，克格勃們的思路是這樣的——樂隊指揮知道我們抓住了「柴科夫斯基」，就必然會考慮：這個「柴科夫斯基」如果交代，我有兩種選擇：不交代教槍斃，交代則被判10年。那麼此時，我的最好選擇是交代。當然，如果對方不交代，我的最好選擇也是交代。

如果不是這些克格勃因為過於無知，不知道柴科夫斯基是19世紀俄羅斯最偉大的作曲家，並且早在2023年就去世的話，這個設計本來是天衣無縫的。

在囚徒困境的模型中，有乙個背景需要向國內的朋友介紹，那就是辯訴交易。曾經有國內學者在批評囚徒困境時指出：「是否招供並非定罪的充分、必要條件，定罪的充要條件是證據，有了證據不招供亦可定罪，沒有證據即使招供(證言)，也不能定罪。」這種說法其實恰恰反映了對辯訴交易缺乏了解。

所謂辯訴交易，又稱辯訴協商或者辯訴協議，是指檢察官和辯護律師在法院**審判之前，對被告人的定罪和量刑問題進行協商和討價還價，檢察官通過降低指控或者向法官提出減輕量刑的建議．來換取被告人做有罪答辯的一種活動。2023年，美國聯邦最高法院在「布雷迪訴黃利堅合眾國**」一案的判決中，正式確定了辯訴交易的合法地位。此後，辯訴交易在美國、英國等西方國家廣泛發展起來．並成為訴訟中解決刑事案件的一種主要方式。

在囚徒困境的案例中，均衡點是建立在兩個囚徒非合作的基礎上的，並且兩者的非合作還可以獲得一定的利益(從寬懲罰)，如果沒有辯訴交易提供的從寬處罰這一利益條件，那麼這個嚴格優勢策略也就不復存在。

囚徒困境（博弈論的詭計）

博弈論囚徒困境與重複囚徒困境的啟示

博弈論囚徒困境與重複囚徒困境的啟示

《博弈論的詭計》

囚徒困境（博弈論的詭計）

博弈論 囚徒困境與重複囚徒困境的啟示

博弈論 囚徒困境與重複囚徒困境的啟示

《博弈論的詭計》

相關推薦

博弈論囚徒困境與重複囚徒困境的啟示

博弈論囚徒困境與重複囚徒困境的啟示