假設檢驗使用p值來接受或拒絕你的假設

作者|guest 編譯|vk **|analytics vidhya

檢驗是統計學中最基本的概念之一。不僅在資料科學中，假設檢驗在各個領域都很重要。想知道怎麼做？讓我們舉個例子。現在有乙個lifebuoy沐浴露。

沐浴露廠商聲稱，它殺死99.9%的細菌。他們怎麼能這麼說呢？必須有一種測試技術來證明這種說法是正確的。所以假設檢驗用來證明乙個主張或任何假設。

假設檢驗的定義

零和替代假設檢驗

簡單假設檢驗和復合假設檢驗

單尾和雙尾檢驗

臨界區i型和ii型錯誤。

統計學意義

信心水平

重要程度

p值這個部落格將這些概念分解成小部分，這樣你就能理解它們的動機和用途。當你讀完這個部落格，假設檢驗的基礎知識就會很清楚了！！

假設是關於引數值（均值、方差、中值等）的陳述、假設或主張。

假設是對你周圍世界的某件事的有根據的猜測。它應該可以通過實驗或觀察來測試。

比如說，如果我們說「多尼是有史以來最好的印度隊長」，這是乙個假設，我們是根據他擔任隊長期間球隊的平均輸贏情況做出的。我們可以根據所有的匹配資料來測試這個語句。

零假設是在假設為真的前提下，檢驗假設是否可能被拒絕。類似無罪的概念。我們假定無罪，直到我們有足夠的證據證明嫌疑人有罪。

簡單地說，我們可以把零假設理解為已經被接受的陳述，例如，天空是藍色的。我們已經接受這個宣告。

用h0表示。

替代假設補充了零假設。它與原假設相反，替代假設和原假設一起覆蓋了總體引數的所有可能值。

用h1表示。

讓我們用乙個例子來理解這一點：

一家肥皂公司聲稱他們的產品平均殺死99%的細菌。為了檢驗這家公司的主張，我們將提出零和替代假設。

零假設（h0）：平均值等於99%

替代假設（h1）：平均值不等於99%。

注意:當我們檢驗乙個假設時，我們假設原假設是真的，直到樣本中有足夠的證據證明它是假的。在這種情況下，我們拒絕原假設而支援替代假設。

如果樣本不能提供足夠的證據讓我們拒絕零假設，我們不能說零假設是真的，因為它僅僅基於樣本資料。零假設成立需要研究整個總體資料。

當乙個假設指定了引數的精確值時，這是乙個簡單的假設，如果它指定了乙個值的範圍，則稱為復合假設。例如

如果替代假設在兩個方向（小於和大於）給出了在零假設中指定的引數值的替代，則稱為雙尾檢驗。

如果替代假設只在乙個方向（小於或大於）給出了在零假設中指定的引數值的替代，則稱為單尾檢驗。例如

根據h1，平均值可以大於或小於100。這是乙個雙尾檢驗的例子

同樣，

在這裡，平均值不到100。這叫做單尾檢驗。

拒絕域是樣本空間中的拒絕區域，如果計算值在其中，那麼我們就拒絕零假設。

讓我們用乙個例子來理解這一點：

假設你想租一套公寓。你從不同的真實國家**列出了所有可用的公寓。你的預算是15000盧比/月。你不能再花那麼多錢了。你所訂的公寓清單的**從7000/月到30000/月不等。

你從列表中隨機選擇乙個公寓，並假設以下假設：

現在，既然你的預算是1.5萬，你必須拒絕所有高於這個**的公寓。

在這裡所有**超過15000成為你的拒絕域。如果隨機公寓的**在這個區域，你必須拒絕你的零假設，如果公寓的**不在這個區域，你就不能拒絕你的零假設。

根據替代假設，拒絕域位於概率分布曲線的一條或兩條尾巴上。拒絕域是與概率分布曲線中的截止值相對應的預定義區域。用α表示。

臨界值是將支援或拒絕零假設的值分隔開的值，並根據alpha進行計算。

稍後我們將看到更多的例子，我們將清楚地知道如何選擇α。

根據另一種假設，拒絕域出現了三種情況：

案例1）這是乙個雙尾檢驗。

案例2）這種情況也被稱為左尾檢驗。

案例3）這種情況也被稱為右尾檢驗。

因此，第一類和第二類錯誤是假設檢驗的重要課題之一。讓我們把這個話題分解成更小的部分來簡化它。

乙個假正例（i型錯誤）——當你拒絕乙個真的零假設時。

假負性（ii型錯誤）——當你接受乙個錯誤的零假設時。

例子：這個人因犯有入室盜竊罪而**。由法官組成的陪審團必須裁定有罪或無罪。

h0：人是無辜的

h1：人有罪

第一類錯誤是如果陪審團判定某人有罪[拒絕接受h0]，儘管此人是無辜的[h0是真的]。

第二類錯誤將是當陪審團釋放該人[不拒絕h0]雖然該人有罪[h1是真的]。

為了理解這個話題，讓我們考慮乙個例子：假設有一家糖果廠每天生產500克的糖果。工廠維修後的一天，一名工人聲稱他們不再生產500克的糖果，可能是少了或多了。

那麼，這名工人憑什麼宣稱這一錯誤？那麼，我們應該在**畫一條線來決定糖果條重量的變化呢？這一決定/界限在統計學上具有重要意義。

顧名思義，我們有多自信：我們在做決定時有多自信。loc（置信水平）應大於95%。不接受低於95%的置信度。

顯著性水平，用最簡單的術語來說，就是當事實上是真的時，錯誤地拒絕零假設的臨界概率。這也稱為i型錯誤率。

這是i類錯誤的概率。它也是拒絕域的大小。

一般來說，在測試中，它是非常低的水平，如0.05（5%）或0.01（1%）。

如果h0在5%的顯著性水平上沒有被拒絕，那麼我們可以說我們的零假設是正確的，有95%的把握。

假設我們在1%的顯著性水平上進行假設檢驗。

h0：平均值我們得到臨界值（基於我們使用的測試型別），發現我們的測試統計值大於臨界值。因此，我們必須在這裡拒絕零假設，因為它位於拒絕域。

如果零假設在1%時被拒絕，那麼可以肯定的是，在更高的顯著性水平上，比如5%或10%，它會被拒絕。

如果我們的顯著性水平低於1%，那麼我們是否也必須拒絕我們的假設呢？

是的，有可能發生上述情況，而「p值」正在發揮作用。

p值是可以拒絕零假設的最小顯著性水平。

p值決策

我們比較p值和顯著性水平（alpha）對零假設做出決定。

sklearn機器學習中文官方文件：

假設檢驗假設檢驗學習筆記

在實際工作和研究中，往往只能獲得資料的一部分，通常指這個資料為樣本，而通過樣本對整體的估計被稱為假設檢驗。樣本是從整體中選取的較小集合，中心極限定律樣本的均值約等於總體的均值不管整體什麼分布，任意乙個總體的樣本均值都會圍繞在總體的均值周圍，且呈正太分布。關鍵資訊樣本的均值等於總體的均值樣本的...

假設檢驗到底該怎麼理解假設檢驗？

學過統計學或概率論的同學，對假設檢驗這個詞一定不陌生。因為期末考試的卷子裡必定會考一道這種題，那個時候，我其實對假設檢驗的流程並不是很理解，不過幸好流程簡單，照葫蘆畫瓢，套一套格式就能答對。那假設檢驗到底是個什麼東西？先上一道假設檢驗的例題，回憶一下假設檢驗的流程，找一下當初的感覺。某工具機廠加...

（六）假設檢驗

假設檢驗的步驟步驟1 提出原假設與備擇假設步驟2 指定檢驗中的顯著性水平步驟3 蒐集樣本資料並計算檢驗統計量的值 p 值方法步驟4 利用檢驗統計量的值計算p 值步驟5 如果p 值 a，則拒絕h0 臨界值方法步驟6 顯著性水平確定臨界值以及拒絕規則步驟7 利用檢驗統計量的值以及拒絕規則確...

假設檢驗 使用p值來接受或拒絕你的假設

假設檢驗 假設檢驗學習筆記

假設檢驗 到底該怎麼理解假設檢驗？

（六）假設檢驗

相關推薦

假設檢驗使用p值來接受或拒絕你的假設

假設檢驗假設檢驗學習筆記

假設檢驗到底該怎麼理解假設檢驗？