統計學假設驗證

統計學系列目錄（文末有大獎贈送）：

統計學①——概率論基礎及業務實戰

統計學②——概率分布（幾何，二項，泊松，正態分佈）

統計學③——總體與樣本

統計學④——置信區間

當你從廣告中，從別人口中，從新聞上等得到乙個結論時，你要判斷這個結論是否可信，假設驗證就是這樣一種判斷是否值得可信的方法。

比如市面上很繁榮的it培訓，包你在三個月找到工作，這怎麼驗證真偽呢？先假設這句話是真的，再去選擇一些參加過培訓的人的，看找到工作的人有多少？如果都找到了那就值得信，但是由於各種各樣的因素不太可能誰都找到，我們允許有一定的誤差，假如5%，那就超過95%的都找到了，那也值得信。如果只有很少的人找到，我們就足以推翻這個結論，得到相反的結論。

1、設定原假設——參加培訓的人90%都能找到工作，換成數字就是成功找到工作的比例p=90%

2、作好備擇假設——成功找到工作的比例p<90%，這個叫單側檢驗，根據實際情況可以選擇單側或雙側

3、設定檢驗統計量——成功找到工作的比例p，p服從二項分布，當滿足特定條件時，二項分布可近似為正態分佈，就可以通過標準化為n（0，1）分布獲得概率分布

4、設定拒絕域——是指當樣本的統計量的概率處於某個範圍時，就可以拒絕原假設，一般以5%，也叫顯著性水平

5、抽取樣本——簡單隨機，分層，分群，系統抽樣等盡量保證樣本無偏

6、根據樣本計算統計量並判斷是否接受原假設——比如統計量為p=87%，沒有落入拒絕哉，那就沒有足夠的證據推翻原假設，那就說明參加這個培訓的人確實90%都能找到工作（雖然實際是不可能的，舉個例子不要當真，哈哈）

1、均值

統計量為μ，如果總體為正態分佈，則不管大小樣本，均值符合正太分布

如果總體是非正太分布，大樣本可以近似為正態分佈，小樣本可以近似於t分布

2、比例

統計量p，如二中所說，在樣本和總體比例滿足：np>5且np(1-p)>5時，比例可近似於正太分布

3、卡方

驗證實際頻數與預期頻數是否一致，統計量為χ2，中文名就卡方（下文會解釋），卡方服從卡方分布

1、卡方分布是什麼？

假設隨機變數x符合卡方分布，則概率分布曲線為：

n越大，曲線越趨向於對稱，可以通過差表獲得概率，這裡要注意一點，概率表中是以自由度來查詢概率，自由度 = 組數-限制數

兩大性質：

主要用於：

① 檢驗實際概率是否符合特定概率分布

② 檢驗兩變數是否具有相關性

2、卡方檢驗是什麼？

卡方檢驗是實際頻數與預期頻數是否存在差別的度量χ2，χ2越小，說明觀察頻數與期望頻數相差越小。

其中o是實際頻數，e是理論頻數

3、假設檢驗的步驟

與均值，比例假設檢驗步驟相同

本人網際網路資料分析師，目前已出excel，sql，pandas，matplotlib，seaborn，機器學習，統計學，個性推薦，關聯演算法，工作總結系列。

統計學假設驗證

重溫統計學假設驗證

統計學的假設檢驗

統計學03 假設檢驗

統計學 假設驗證

重溫統計學 假設驗證

統計學的假設檢驗

統計學03 假設檢驗

相關推薦

統計學假設驗證

重溫統計學假設驗證