下列統計量服從什麼分布抽樣好懂，抽樣分布又在說啥

前面我們講解了正態分佈的重要知識點(戳此閱讀《一文搞懂「正態分佈」所有重要知識點》)，在文中，我們強調，理解正態分佈是搞懂「假設檢驗」和「置信區間」等內容的關鍵點。但關鍵的基礎並非只有「正態分佈」，今天我們要談的「抽樣」和「抽樣分布」也是其中之一。

抽樣，就是從研究的總體中抽取一部分個體作為我們真正的研究物件，可以簡單把樣本理解為總體的乙個子集，通過樣本的結果來推測總體情況。比如我們想知道中國成年男性的平均身高，理論上最準確的辦法是調查中國所有成年男性的身高，然後計算平均數。很顯然，沒人這樣做。

實際的做法總是抽取一部分人，然後計算這部分人的平均身高，由這個平均身高來大致估計總體的平均身高。邏輯聽起來很簡單也很像那麼回事，但為什麼這是可行的？要回答這個問題其實就要弄懂抽樣以及抽樣分布的知識。

1. 抽樣調查：樣本統計量vs總體引數

在上文身高調查的例子中我們簡單介紹了抽樣，它作為一種調查方法應用的十分普遍。抽樣調查(sampling survey)與我們聽過的普查(census)對應，嚴格而言，是指通過隨機抽樣的方法，對特定時點、特點範圍內人群的乙個代表性樣本進行調查，然後通過樣本的統計量來估計總體情況，即總體引數。這裡有兩個術語，何為樣本統計量？什麼又叫總體引數？

實際上，這兩個術語的數學計算幾乎沒有區別，只是乙個是針對樣本，乙個是針對總體。比如，同樣是均數，如果是通過乙個樣本計算得來的，叫樣本統計量；如果是通過總體計算的，叫總體引數。

再舉一例，某疾病的患病率，由樣本計算的為樣本統計量，一般稱為樣本率；由總體計算(比如通過普查)得到的稱作為引數，也稱總體率。所以，簡單而言，無論是樣本均數還是樣本率都叫做樣本統計量。

另外，值得一提的是，這兩個概念——均數和率其實不像大家想象的那樣「天壤之別」，樣本率實際上可以看做是乙個二分類(0和1)變數的樣本均數。試想，乙個樣本中患病的記做1，不患病的記做0，患病的比例實際上就是這個0-1變數的樣本均數。

與普查相比，抽樣調查雖然省時、省力、省錢，但由於調查終究是針對樣本開展，為了保證結果能推測總體，其在設計、實施以及資料分析方面均要複雜許多，並且應盡可能保證抽樣過程的隨機化和足夠的樣本量。同時，對於變異過大的研究物件或者患病率太低的疾**為需要很大的樣本量，有時不太適合用抽樣調查。

2. 抽樣方法

抽樣的目的是為了通過樣本獲得總體的資訊，所以關鍵點是怎麼抽樣才能保證獲得的樣本具有代表性，下面，我們簡單介紹幾種常用的抽樣方法。

簡單隨機抽樣(****** random sampling)。原理和我們抽撲克牌、**一樣，就是從乙個固定的總體中(比如有n個物件)，利用抽籤或其他隨機方法(如隨機數表)抽取n個物件。所謂隨機，是指總體中每乙個物件被抽中的概率相等。假設兩個人抽撲克牌比大小，兩個人抽中大王的概率其實一樣，都是1/54。

對於小型總體，簡單隨機抽樣很好操作，但是總體越大，簡單隨機抽樣就越難實行。比如，從全國人口中隨機抽取1萬名調查物件，則意味著，需要像抽牌一樣從14億中抽出1萬，即便可以通過身份證號碼等記錄進行抽樣，但如何定位這些樣本將會是乙個浩大的工程。因此，現實調查過程中，簡單隨機抽樣並非直接被用，往往是與其他抽樣方法結合起來使用。

系統抽樣(systematic sampling)。這種抽樣方法的核心在於確定乙個所謂的「抽樣間隔」。比如將總體物件隨機編號，從1至100，我們只抽取編號個位數是7的物件，即編號為7，17，27，…的樣本，本質上他們相鄰的編號有乙個固定的間隔——10。

系統抽樣可以在不知道總體的具體數目的情況下進行，只需確定乙個抽樣間隔，但應用中需注意總體可能呈現的週期性趨勢(如季節性趨勢)，比如採用每相隔一年抽一次的辦法，則有可能抽取的樣本都來自同乙個季節，很顯然這個抽樣的結果難以代替總體。

分層抽樣(stratified sampling)，是指先將總體按照某種特徵分為若干層，比如按照性別分為男女兩層，然後再從每一層內進行簡單隨機抽樣。分層的目的就在於提公升樣本對總體的代表性，提高估計的精確度，比如一般的理工院校男生多女生少，採用分層抽樣可以保證男性和女性樣本都能被抽中。

整群抽樣(cluster sampling)，是將總體分成幾個群，比如我國開展的大型調查一般會以省或地區為群，先採用簡單隨機抽樣的方法抽取群，然後從抽中的群中再抽取相關的個體進行研究。現實過程中可以將抽中的群中的所有物件作為研究樣本，也可以在群內部再次進行抽樣獲得部分調查物件作為樣本。

以上即為幾種常見的抽樣方法，實際操作中，尤其是大型的調查，一般將上述方法結合起來分階段實施，稱為「多階段抽樣(multistage sampling)」，從而充分利用各種抽樣方法的優勢，克服各自不足。

3. 抽樣分布

明白了抽樣和各種常用抽樣方法的基本概念，我們開始重點學習抽樣分布。第一點要清楚：抽樣分布說的是對誰的分布？答案是樣本統計量，比如樣本均數或樣本率。

以樣本均數為例，一般說樣本均數的抽樣分布如何如何，這裡，樣本均數被當成了乙個隨機變數來看待。這或許是本文最核心、也是我們最希望大家記住的要點：樣本均數是乙個隨機變數，但對於初學者，這確實是比較反直覺的。

為何樣本均數可以被當做乙個隨機變數？因為樣本均數是依賴樣本計算得出的：每抽取一組樣本都可以計算出乙個樣本均數，而且這些樣本均數或多或少都會有些差異。由此，樣本均數會隨著抽樣的不同而隨機變動。只是現實生活中我們一般只抽取一組樣本，計算乙個樣本均數，因此，會覺得樣本均數不變。

現在，我們按照同樣的方法重複抽100次，每次都抽取1000人。在這個過程中我們實際一共調查了10萬人，不過這10萬人以1000人為一組被分成了100個樣本，而每一組都可以計算乙個樣本均數，假設分別為：1.76，1.72，1.69，1.77，……，1.75。

由此，我們一共獲得了100個樣本均數，從而可以對這100個數求平均數和標準差，於是就得到了樣本均數的平均數和標準差(這個標準差一般稱為樣本均數的標準誤)。有點類似網際網路的時髦語——迭代，這裡用樣本均數對原總體進行了一次迭代。

為什麼要這樣做？為什麼不直接一次性調查10萬人，而要繞這麼個圈子？很簡單，這裡100次的重複抽樣僅僅是輔助大家理解，現實**於成本的考慮，往往只會抽取一次。更重要的是，統計理論告訴我們即使只抽樣一次也是極具價值的，這個理論就是你聽過的——中心極限定理(central limit theorem)。

這個定理的數學表示式有些複雜，但好在其中的邏輯很簡單：在任意總體中隨機抽取乙個樣本量為n的樣本，如果樣本容量較大(通常大於30即可)，那麼通過這個樣本計算的樣本均數近似服從正態分佈，其核心思想可以很好地由下面這幅圖來表達：

注意上圖，第一行是x的分布情況，其餘都是不同樣本量下的樣本均數的分布。如何獲得這些圖？實際上就是通過我們上面講到的重複抽樣的過程。從最後一行可見，當樣本量n=30時，無論x**於何種總體，其樣本均數總近似服從正態分佈。下面通過簡單的數學符號，明確一下各種表達：

類似樣本均數，我們可以用同樣的邏輯來研究樣本率的抽樣分布。

很顯然，這裡的0.3只來自於乙個樣本，如果我們重複進行多次抽樣，同樣計算工資高於1.5萬的比例，很可能不會完全等於0.3。比如重複抽樣100次(實際調查1萬名員工，但不排除有員工被重複抽中)，就可以獲得100個樣本率，由此，可以以樣本率為研究物件，計算它的平均數和標準差。

同時，根據中心極限定理，樣本率(這裡看做乙個新的隨機變數)也會近似服從正態分佈，由此，可以依據正態分佈的性質對其進行研究，如假設檢驗(比如檢驗「公司員工工資高於1.5萬的比例是否達到1半」，類似單樣本t檢驗)和置信區間的估計。

由此可見，樣本率和樣本均數雖然用於對不同變數的統計描述，但從抽樣分布的角度而言，其含義幾乎完全一致。不僅如此，後續你會看到各種統計方法諸如回歸分析等，對關鍵係數的假設檢驗與區間估計，都是依賴樣本量的抽樣分布近似服從正態分佈而展開的。

因此，看到這裡，你應該能真正體會到上一講我們對正態分佈重要性的講解：因為抽樣分布概念的引入以及中心極限定理的應用，我們不再害怕原總體分布是否服從正態分佈，只要樣本量滿足一定要求(通過很易達到)，根據樣本計算的各種統計量幾乎都服從正態分佈，從而均能用正態分佈的性質來進行研究。

1. 流行病學(第八版).詹思延等.人民衛生出版社

2. 商務與經濟統計(第八版).安德森(anderson d r.)等. 中信出版出版社

下列統計量服從什麼分布抽樣好懂，抽樣分布又在說啥

常用的統計量和抽樣分布

車輛到達服從什麼分布交通工程習題

11 三個重要統計量的分布 1

下列統計量服從什麼分布 抽樣好懂，抽樣分布又在說啥

常用的統計量和抽樣分布

車輛到達服從什麼分布 交通工程習題

11 三個重要統計量的分布 1

相關推薦

下列統計量服從什麼分布抽樣好懂，抽樣分布又在說啥

車輛到達服從什麼分布交通工程習題