書摘什麼是大數定律

有時，比研究具體數值更好的方法是研究比率：死亡人口在總人口中的比率。比如，我們可以計算美國各州每年死於腦癌的人在該州人口中所佔的比例，而無須逐州統計死於腦癌的人數等原始資料。按照這種方法，得出的排行榜完全不同。南達科他州很不幸地位列榜首，每10萬人中每年死於腦癌的人數為5.7人，遠遠超出每年3.4人的全美腦癌死亡率。排在南達科他州之後的是內布拉斯加州、阿拉斯加州、德拉瓦州和緬因州。如果我們不希望患上腦癌，可能就要避開這些地方。那麼，我們該搬到什麼地方去呢？在這個名單的末尾，我們會發現懷俄明州，佛蒙特州、北達科他州、夏威夷州以及哥倫比亞地區。

這個結果有點兒奇怪。南達科他州腦癌頻發，為什麼北達科他州卻幾乎沒有人患上這種癌症呢？為什麼住到佛蒙特州就安全，而住在緬因州就有危險呢？

原因不是南達科他州一定會讓居民患上腦癌，而北達科他州的居民則對癌症免疫。排在榜首的這五個州有共同的特點，而排在榜尾的那五個州也有相似之處，即這些地方人口稀少。在排在前面和末尾的這9個州（及乙個特區）中，人口最多的是內布拉斯加州。在人口排名的競爭中，該州與西維吉尼亞州是難兄難弟，雙方為第37名的位置爭得熱火朝天。這個分析結果似乎表明，住在人口較少的州，患腦癌的概率有可能高得多，也有可能低得多。

很顯然，這個結論沒有任何道理，因此，我們最好換一種解釋方法。

為了更好地理解這種情況，我們先做乙個虛擬遊戲，遊戲的名字叫做「誰最善於拋硬幣」。玩法很簡單，將一把硬幣丟擲去，正面朝上的硬幣數量最多的一方獲勝。我們給這個遊戲增加一點兒趣味性，讓大家手裡握的硬幣數量不同。有些人（「小數」組）只有10枚硬幣，有些人（「大數」組）則有100枚硬幣。

如果以正面朝上硬幣的絕對數量來計分，我們幾乎可以肯定獲勝方是「大數」組的成員。「大數」組成員大多約有50枚硬幣朝上，這個數字是「小數」組無法企及的。即使「小數」組有100名成員，他們當中的最高得分也只能是9枚上下。

顯然，這樣的玩法並不公平，因為「大數」組擁有難以逾越的先天優勢。因此，我們可以改進這個遊戲：在評分時，不以絕對數量為依據，而是根據比例來計分。這樣的計分方法，對兩個組來說應該是公平的。

但是，這個計分方法仍然不公平。我前面說過，如果「小數」組有100名成員，很有可能至少乙個人丟擲8枚正面朝上的硬幣，因此他的得分為80%。那麼「大數」組的成員呢？他們都不會有80%的硬幣是正面朝上的。當然，可能性是存在的，但卻不會發生。事實上，從概率的角度看，「大數」組必須包含20億名成員，出現過高或過低的結果才是合理的。這個結論符合我們對於概率的直覺認識，拋的硬幣越多，越有可能出現一半正面朝上一半正面朝下的結果。

讀者朋友們可以自己嘗試一番，我就動手做過這個實驗。為了模擬「小數」組成員，我一次拋十枚硬幣，連續拋很多次，硬幣正面朝上的數量構成下面這個序列：

4，4，5，6，5，4，3，3，4，5，5，9，3，5，7，4，5，7，7，9……

然後我模擬「大數」組成員，一次丟擲100枚硬幣，多次拋投的結果為：

46，54，48，45，45，52，49，47，58，40，57，46，46，51，52，51，50，60，43，45……

每次拋1000枚硬幣的結果是：

486，501，489，472，537，474，508，510，478，508，493，511，489，510，530，490，503，462，500，494……

算了，還是跟大家坦白吧。我並沒有真的拋1000枚硬幣，而是用計算機模擬得出的結果，誰有那麼多的時間拋1000枚硬幣呢？

不過，還真的有人這樣做了。2023年，南非數學家克里奇（j.e.kerrich）因為冒失地跑到了歐洲，結果很快在丹麥被逮捕並被關進了集中營。如果乙個普通人被關在集中營，不知道猴年馬月才能重見天日，那麼他可能會在牢房的牆壁上刻畫記號記錄天數，以此來幫助自己度過這段難熬的時光。不過，克里奇這位熱衷於統計學研究的囚犯則不同，他總共將一枚硬幣拋了一萬次，還記錄了正面朝上的數量，統計結果如下圖所示：

從中我們可以看出，隨著硬幣的數量越來越多，正面朝上的概率明顯地向50%靠近，就好像被一把看不見的老虎鉗鉗住了一樣。計算機模擬也會產生同樣的結果。拋10枚硬幣，正面朝上的比例範圍為30%至90%；拋100枚，比例範圍縮小，變為40%至60%；拋1000枚，比例範圍僅為46.2%至53.7%。在某個規律的作用下這個比例越來越接近50%。這只不講情面、無法抗拒的「手」就是「大數定律」。這裡，我就不贅述這條定理了（儘管這條定理極具美感），但是我們可以這樣理解：拋的硬幣越多，正面朝上的比例為80%的概率就越小。事實上，如果拋的硬幣足夠多，結果為有51%的硬幣正面朝上的概率也是微乎其微的！在拋10枚硬幣的情況下，如果得到高度失衡的結果，並不值得我們關注。但是，如果拋100枚硬幣，結果仍然失衡，那就讓人吃驚了，我們甚至會懷疑：是不是有人在硬幣上動了手腳？

隨著實驗不斷重複，實驗結果往往會趨於穩定，並接近乙個固定的平均值。事實上，自從運用數學方法研究概率以來，我們經常會得出這樣的結論。16世紀的吉羅卡莫.卡爾達諾（girolamo cardano）就用不是十分正式的方式提出了這個原則，但是，直到19世紀初，西莫恩.德尼.泊松（simeon-denis poisson）才賦予它乙個簡明扼要的名字：大數定律。

摘自喬丹.艾倫伯格《魔鬼數學》

書摘什麼是大數定律

什麼是Little定律 littles law

什麼是大資料？

什麼是大資料

書摘 什麼是大數定律

什麼是Little定律 littles law

什麼是大資料？

什麼是大資料

相關推薦

書摘什麼是大數定律