1 6模型的比較和檢驗

2021-10-06 02:25:28 字數 2019 閱讀 6288

在選擇合適的評估方法和相應的效能度量時,計算出效能度量後直接進行比較,會存在以下問題:

上述問題按照統計學的知識描述為:已知兩個模型 f1和f2 ,兩者的泛化效能在測試集上的表現不同, f1好於f2 ,請檢驗在統計意義上 f1 是否好於 f2 ?這個把握有多大?

用擲硬幣問題描述上述問題:

統計學家fisher先生和一位女士玩擲硬幣猜正反面的遊戲。女士號稱每次都能擲出正面,fisher先生根據自己的知識認為不可能。然而女士拿出一枚準備好的硬幣開始投擲後,果然連續n次的結果都是正面。fisher先生覺得有兩種可能,第一,這位女士運氣非常好,能連續擲出正面;第二,硬幣被做過手腳,無論誰擲都有很大的可能得到正面。到底是哪種原因呢?

在假設硬幣沒問題的情況下,投擲結果符合p=0.5的二項式分布:

第1次投擲,連續1次出現正面的概率為b(1;1,0.5)=0.5

第2次投擲,連續2次出現正面的概率為b(2;2,0.5)=0.25

第3次投擲,連續3次出現正面的概率為b(3;3,0.5)=0.125

第4次投擲,連續4次出現正面的概率為b(4;4,0.5)=0.0625

第5次投擲,連續5次出現正面的概率為b(5;5,0.5)=0.03125

第10次投擲,連續10次出現正面的概率為b(10;10,0.5)=0.000977

如果乙個事件發生的概率為5%,我們通常認為它是小概率事件

5%就是假設檢驗的p值,實際工作中看業務需求,有時候可能會取1%,甚至更小的數值

統計假設檢驗(hypothesis test):事先對總體的引數或者分布做乙個假設,然後基於已有

的樣本資料去判斷這個假設是否合理。即樣本和總體假設之間的不同是純屬機會變異(因為

隨機性誤差導致的不同),還是兩者確實不同。

常用的假設檢驗方法:

基本思想:

1.建立假設

根據具體的問題,建立假設:

原假設(null hypothesis):蒐集證據希望推翻的假設,記作h

0h_0

h0​(假設硬幣沒有問題)

備擇假設(alternative hypothesis):蒐集證據予以支援的假設,記作h

1h_1

h1​(假設硬幣有問題)

假設的形式:

只有小概率事件發生了,才拒接原假設,檢驗過程保護原假設

2.確定檢驗水準

檢驗水準(size of a test):又稱顯著性水平(significance level),記作α,是指原假設正確,但是最終被拒絕的概率。

在做檢驗的過程中,會犯兩種錯誤:

顯著水平α=0.05的意思是:在原假設正確的情況下進行100次抽樣,有5次錯誤的拒絕了原假設。

3.構造統計量

構造統計量:根據資料型別、研究設計方案和統計推斷的目的,選用適當檢驗方法和計算相應的統計量

常見檢驗方法:

4.計算p值

關於p值:

計算p值:假設原假設為真,可由樣本資料計算出統計量,根據統計量的具體分布求出p值

5.得到結論

如果p值小於等於顯著水平α,表明x小概率事件發生,拒絕原假設

統計量的值如果落在拒絕域內或者臨界值,則拒絕原假設,落在接受域則不能拒絕原假設

例1:二項式檢驗

例2:t檢驗

以一元線性回歸為例,可以使用假設檢驗作如下比較和推斷:

回歸方程的顯著性檢驗:y=β

0+β1

xy=β0+β1x

y=β0+β

1x相關係數的顯著性檢驗

模型的統計檢驗

研究從假設來,推導出了模型,就一定要用可靠的檢驗方法來驗證它的可靠性。常用的檢驗方法就是統計學檢驗,主要分為兩塊 擬合優度檢驗 模型顯著性檢驗 殘差平方和和什麼東西一除,就得到個擬合優度 r2 怎麼得來的百科裡面都有,書上也很容易能找到 總之這個 r2 是乙個在 0 1 之間的量,越接近1說明擬合得...

IOCP模型和EPOLL模型的比較

iocp模型與epoll模型的比較 iocp i o completion port 常稱i o完成埠。iocp模型屬於一種通訊模型,適用於 能控制併發執行的 高負載伺服器的乙個技術。通俗一點說,就是用於高效處理很多很多的客戶端進行資料交換的乙個模型。或者可以說,就是能非同步i o操作的模型。三 網...

星型模型和雪花型模型比較

一 概述 在多維分析的商業智慧型解決方案中,根據事實表和維度表的關係,又可將常見的模型分為星型模型和雪花型模型。在設計邏輯型資料的模型的時候,就應考慮資料是按照星型模型還是雪花型模型進行組織。當所有維表都直接連線到 事實表 上時,整個 就像星星一樣,故將該模型稱為星型模型,如圖 1 星型架構是一種非...