書摘 什麼是大數定律

2021-08-07 07:55:52 字數 2462 閱讀 6409

有時,比研究具體數值更好的方法是研究比率:死亡人口在總人口中的比率。比如,我們可以計算美國各州每年死於腦癌的人在該州人口中所佔的比例,而無須逐州統計死於腦癌的人數等原始資料。按照這種方法,得出的排行榜完全不同。南達科他州很不幸地位列榜首,每10萬人中每年死於腦癌的人數為5.7人,遠遠超出每年3.4人的全美腦癌死亡率。排在南達科他州之後的是內布拉斯加州、阿拉斯加州、德拉瓦州和緬因州。如果我們不希望患上腦癌,可能就要避開這些地方。那麼,我們該搬到什麼地方去呢?在這個名單的末尾,我們會發現懷俄明州,佛蒙特州、北達科他州、夏威夷州以及哥倫比亞地區。

這個結果有點兒奇怪。南達科他州腦癌頻發,為什麼北達科他州卻幾乎沒有人患上這種癌症呢?為什麼住到佛蒙特州就安全,而住在緬因州就有危險呢?

原因不是南達科他州一定會讓居民患上腦癌,而北達科他州的居民則對癌症免疫。排在榜首的這五個州有共同的特點,而排在榜尾的那五個州也有相似之處,即這些地方人口稀少。在排在前面和末尾的這9個州(及乙個特區)中,人口最多的是內布拉斯加州。在人口排名的競爭中,該州與西維吉尼亞州是難兄難弟,雙方為第37名的位置爭得熱火朝天。這個分析結果似乎表明,住在人口較少的州,患腦癌的概率有可能高得多,也有可能低得多。

很顯然,這個結論沒有任何道理,因此,我們最好換一種解釋方法。

為了更好地理解這種情況,我們先做乙個虛擬遊戲,遊戲的名字叫做「誰最善於拋硬幣」。玩法很簡單,將一把硬幣丟擲去,正面朝上的硬幣數量最多的一方獲勝。我們給這個遊戲增加一點兒趣味性,讓大家手裡握的硬幣數量不同。有些人(「小數」組)只有10枚硬幣,有些人(「大數」組)則有100枚硬幣。

如果以正面朝上硬幣的絕對數量來計分,我們幾乎可以肯定獲勝方是「大數」組的成員。「大數」組成員大多約有50枚硬幣朝上,這個數字是「小數」組無法企及的。即使「小數」組有100名成員,他們當中的最高得分也只能是9枚上下。

顯然,這樣的玩法並不公平,因為「大數」組擁有難以逾越的先天優勢。因此,我們可以改進這個遊戲:在評分時,不以絕對數量為依據,而是根據比例來計分。這樣的計分方法,對兩個組來說應該是公平的。

但是,這個計分方法仍然不公平。我前面說過,如果「小數」組有100名成員,很有可能至少乙個人丟擲8枚正面朝上的硬幣,因此他的得分為80%。那麼「大數」組的成員呢?他們都不會有80%的硬幣是正面朝上的。當然,可能性是存在的,但卻不會發生。事實上,從概率的角度看,「大數」組必須包含20億名成員,出現過高或過低的結果才是合理的。這個結論符合我們對於概率的直覺認識,拋的硬幣越多,越有可能出現一半正面朝上一半正面朝下的結果。

讀者朋友們可以自己嘗試一番,我就動手做過這個實驗。為了模擬「小數」組成員,我一次拋十枚硬幣,連續拋很多次,硬幣正面朝上的數量構成下面這個序列:

4,4,5,6,5,4,3,3,4,5,5,9,3,5,7,4,5,7,7,9……

然後我模擬「大數」組成員,一次丟擲100枚硬幣,多次拋投的結果為:

46,54,48,45,45,52,49,47,58,40,57,46,46,51,52,51,50,60,43,45……

每次拋1000枚硬幣的結果是:

486,501,489,472,537,474,508,510,478,508,493,511,489,510,530,490,503,462,500,494……

算了,還是跟大家坦白吧。我並沒有真的拋1000枚硬幣,而是用計算機模擬得出的結果,誰有那麼多的時間拋1000枚硬幣呢?

不過,還真的有人這樣做了。2023年,南非數學家克里奇(j.e.kerrich)因為冒失地跑到了歐洲,結果很快在丹麥被逮捕並被關進了集中營。如果乙個普通人被關在集中營,不知道猴年馬月才能重見天日,那麼他可能會在牢房的牆壁上刻畫記號記錄天數,以此來幫助自己度過這段難熬的時光。不過,克里奇這位熱衷於統計學研究的囚犯則不同,他總共將一枚硬幣拋了一萬次,還記錄了正面朝上的數量,統計結果如下圖所示:

從中我們可以看出,隨著硬幣的數量越來越多,正面朝上的概率明顯地向50%靠近,就好像被一把看不見的老虎鉗鉗住了一樣。計算機模擬也會產生同樣的結果。拋10枚硬幣,正面朝上的比例範圍為30%至90%;拋100枚,比例範圍縮小,變為40%至60%;拋1000枚,比例範圍僅為46.2%至53.7%。在某個規律的作用下這個比例越來越接近50%。這只不講情面、無法抗拒的「手」就是「大數定律」。這裡,我就不贅述這條定理了(儘管這條定理極具美感),但是我們可以這樣理解:拋的硬幣越多,正面朝上的比例為80%的概率就越小。事實上,如果拋的硬幣足夠多,結果為有51%的硬幣正面朝上的概率也是微乎其微的!在拋10枚硬幣的情況下,如果得到高度失衡的結果,並不值得我們關注。但是,如果拋100枚硬幣,結果仍然失衡,那就讓人吃驚了,我們甚至會懷疑:是不是有人在硬幣上動了手腳?

隨著實驗不斷重複,實驗結果往往會趨於穩定,並接近乙個固定的平均值。事實上,自從運用數學方法研究概率以來,我們經常會得出這樣的結論。16世紀的吉羅卡莫.卡爾達諾(girolamo cardano)就用不是十分正式的方式提出了這個原則,但是,直到19世紀初,西莫恩.德尼.泊松(simeon-denis poisson)才賦予它乙個簡明扼要的名字:大數定律。

摘自 喬丹.艾倫伯格 《魔鬼數學》

什麼是Little定律 littles law

任何參與敏捷與看板的人都無法避免little定律 little s law little定律是乙個等式 l w 其中變數的意思是 l 在一段時間內排隊系統中的平均任務或專案數量 在規定的時間間隔內新進入系統的平均任務或專案數量 到達率 w 任務或專案在整個系統中花費的平均時間 這個等式中文意思是 排...

什麼是大資料?

大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。在維克托 邁爾 捨恩伯格及肯尼斯 庫克耶編寫的 大資料時代 中大資料指不用隨機分析法 抽樣調查 這樣捷徑,而...

什麼是大資料

粗略學習大資料乙個月,從linux開始學習各種命令,了解各種檔案系統的許可權,學會了如何在黑視窗裝逼。嘿嘿。逐漸的開始接觸hadoop框架,勉勉強強算是hadooop家族的半個成員,但是也許是沒有學的透徹,個人認為。好像大資料本質就是資料統計概率。統計數學題,已經忘記什麼時候做過這樣的數學題了,大概...