1 6模型的比較和檢驗

在選擇合適的評估方法和相應的效能度量時，計算出效能度量後直接進行比較，會存在以下問題：

上述問題按照統計學的知識描述為：已知兩個模型 f1和f2 ，兩者的泛化效能在測試集上的表現不同， f1好於f2 ，請檢驗在統計意義上 f1 是否好於 f2 ？這個把握有多大？

用擲硬幣問題描述上述問題：

統計學家fisher先生和一位女士玩擲硬幣猜正反面的遊戲。女士號稱每次都能擲出正面，fisher先生根據自己的知識認為不可能。然而女士拿出一枚準備好的硬幣開始投擲後，果然連續n次的結果都是正面。fisher先生覺得有兩種可能，第一，這位女士運氣非常好，能連續擲出正面；第二，硬幣被做過手腳，無論誰擲都有很大的可能得到正面。到底是哪種原因呢？

在假設硬幣沒問題的情況下，投擲結果符合p=0.5的二項式分布：

第1次投擲，連續1次出現正面的概率為b(1；1,0.5)=0.5

第2次投擲，連續2次出現正面的概率為b(2；2,0.5)=0.25

第3次投擲，連續3次出現正面的概率為b(3；3,0.5)=0.125

第4次投擲，連續4次出現正面的概率為b(4；4,0.5)=0.0625

第5次投擲，連續5次出現正面的概率為b(5；5,0.5)=0.03125

第10次投擲，連續10次出現正面的概率為b(10；10,0.5)=0.000977

如果乙個事件發生的概率為5%，我們通常認為它是小概率事件

5%就是假設檢驗的p值，實際工作中看業務需求，有時候可能會取1%，甚至更小的數值

統計假設檢驗（hypothesis test）：事先對總體的引數或者分布做乙個假設，然後基於已有

的樣本資料去判斷這個假設是否合理。即樣本和總體假設之間的不同是純屬機會變異（因為

隨機性誤差導致的不同），還是兩者確實不同。

常用的假設檢驗方法：

基本思想：

1.建立假設

根據具體的問題，建立假設：

原假設（null hypothesis）：蒐集證據希望推翻的假設，記作h

0h_0

h0（假設硬幣沒有問題）

備擇假設（alternative hypothesis）：蒐集證據予以支援的假設，記作h

1h_1

h1（假設硬幣有問題）

假設的形式：

只有小概率事件發生了，才拒接原假設，檢驗過程保護原假設

2.確定檢驗水準

檢驗水準（size of a test）：又稱顯著性水平（significance level)，記作α，是指原假設正確，但是最終被拒絕的概率。

在做檢驗的過程中，會犯兩種錯誤：

顯著水平α=0.05的意思是：在原假設正確的情況下進行100次抽樣，有5次錯誤的拒絕了原假設。

3.構造統計量

構造統計量：根據資料型別、研究設計方案和統計推斷的目的，選用適當檢驗方法和計算相應的統計量

常見檢驗方法：

4.計算p值

關於p值：

計算p值：假設原假設為真，可由樣本資料計算出統計量，根據統計量的具體分布求出p值

5.得到結論

如果p值小於等於顯著水平α，表明x小概率事件發生，拒絕原假設

統計量的值如果落在拒絕域內或者臨界值，則拒絕原假設，落在接受域則不能拒絕原假設

例1：二項式檢驗

例2：t檢驗

以一元線性回歸為例，可以使用假設檢驗作如下比較和推斷：

回歸方程的顯著性檢驗：y=β

0+β1

xy=β0+β1x

y=β0+β

1x相關係數的顯著性檢驗

模型的統計檢驗

研究從假設來，推導出了模型，就一定要用可靠的檢驗方法來驗證它的可靠性。常用的檢驗方法就是統計學檢驗，主要分為兩塊擬合優度檢驗模型顯著性檢驗殘差平方和和什麼東西一除，就得到個擬合優度 r2 怎麼得來的百科裡面都有，書上也很容易能找到總之這個 r2 是乙個在 0 1 之間的量，越接近1說明擬合得...

IOCP模型和EPOLL模型的比較

iocp模型與epoll模型的比較 iocp i o completion port 常稱i o完成埠。iocp模型屬於一種通訊模型，適用於能控制併發執行的高負載伺服器的乙個技術。通俗一點說，就是用於高效處理很多很多的客戶端進行資料交換的乙個模型。或者可以說，就是能非同步i o操作的模型。三網...

星型模型和雪花型模型比較

一概述在多維分析的商業智慧型解決方案中，根據事實表和維度表的關係，又可將常見的模型分為星型模型和雪花型模型。在設計邏輯型資料的模型的時候，就應考慮資料是按照星型模型還是雪花型模型進行組織。當所有維表都直接連線到事實表上時，整個就像星星一樣，故將該模型稱為星型模型，如圖 1 星型架構是一種非...

1 6模型的比較和檢驗

模型的統計檢驗

IOCP模型和EPOLL模型的比較

星型模型和雪花型模型比較

相關推薦