統計科學之最小樣本量計算

這一篇我們講講統計中的最小樣本量計算。大家先想想為什麼叫最小樣本量，而不是最大或者直接叫樣本量計算呢？

這是因為最小樣本量這個概念主要用在抽樣統計中，抽樣統計為了研究某一事物的情況而從整體中抽取部分樣本來進行研究，並用抽取的樣本來代替整體的情況。比如要研究中學生的平均身高，你不太可能把全國的中學生身高都量一遍，然後求出乙個平均值。比較簡單的方法就是從全國中學生群體中抽取一部分，然後用這一部分同學的平均身高代替全國中學生的平均身高。

既然是用抽樣樣本的平均身高代替整體的平均身高，我們就需要考慮乙個問題，就是抽出來的樣本能不能代表整體。假設全國有1000萬名中學生，你只抽了100個同學，想用這100位同學的平均身高代替這1000萬同學的平均身高，很明顯是不太合理的。那我們應該最少抽取多少樣本才能夠代表整體呢？這個最少抽取樣本就是最小樣本量，表示最少需要這麼多樣本量，當然也可以比這多，抽樣樣本越多結果越具有代表性。但是由於現實中盡可能多的樣本很難獲取，又為了保證抽樣結果足夠具有代表性，所以我們一般選擇最小樣本量。那這個最小樣本量怎麼確定呢？就是我們這一篇重點要講的內容。

在講最小樣本量之前，我們先講一下另乙個概念，統計功效，即power值。這個在之前的文章中也提過，我們再提一下。

在假設檢驗中如果計算出來的p值小於等於顯著性水平α，則拒絕零假設，否則接受原假設。在這個決策的過程中容易犯兩種錯誤：第一類錯誤(i型錯誤)叫做棄真錯誤，通俗一點就是漏診，就是本來是生病了(假設是正確的)，但是你沒有檢測出來，所以給拒絕掉了；第二類錯誤(ii型錯誤)是取偽錯誤，通俗一點就是誤診，就是本來沒病(假設是錯誤的)，結果你診斷說生病了(假設是正確的)，所以就把假設給接受了。

下圖中左邊的分布圖為h0對應的分布，右邊的分布圖為h1對應的分布，α為一型錯誤值，β為二型錯誤值。i型錯誤的值一般為0.05，ii型錯誤的值一般為0.1或0.2，而power = 1 - β，表示h1分布下判斷正確的把握是多少，即你有多大把握能夠正確的拒絕掉h0假設。

(**知乎@邱宗滿)

上圖中h1分布下對應的整體面積減去圖中紫色部分的面積就是power的大小，具體計算公式如下：

φ表示求z值對應的累計概率，即正態分佈中的面積，δ是兩組樣本均值之差， σ為各組樣本標準差，n為樣本數。

在一般ab實驗中，我們假設ab兩組是同質的，且樣本量是一致的，所以有σ1 = σ2，n1 = n2，將上面的power公式進行轉換最後可以得到如下關於樣本量公式：

需要注意的是不同檢驗滿足的分布是不一樣的，對應的power公式也是不一樣，而最小樣本量公式也是從power來的，所以不同檢驗方式對應的最小樣本量公式也是不一樣的。我們本篇是以滿足正態分佈的z檢驗為例。

統計科學之最小樣本量計算

網路流之最小割

演算法之最小生成樹

演算法之最小路徑和

統計科學之最小樣本量計算

網路流之最小割

演算法之最小生成樹

演算法之最小路徑和

相關推薦