置信度和置信區間的演算法實現

2021-10-01 10:10:09 字數 2110 閱讀 3896

在講置信度和置信區間之前先講講點估計,那什麼是點估計呢?給你舉兩個例子你就知道了。

現在你想要知道乙個學校學生的身高情況,你可以把所有的學生測量一遍,然後得到答案,這種方法可以,而且得到的資料肯定是最真實的,但是這裡有乙個問題,什麼問題呢?就是如果學生人數太多,全部測量的話工作量太大了,那怎麼辦呢?那就隨機挑選一部分學生,然後測量這一部分學生的身高,得到乙個值(一般用平均值),用這一部分的平均值來估計整體學生的身高情況,我們把這種估計方式稱為點估計

現在你要看一下某流水線上 iphone 手機的不合格率,怎麼看呢?最笨的方法還是把所有的手機全部開機試用,統計不合格手機的佔比,這樣可以嗎?很明顯是不可以的。那怎麼才能知道這一條流水線的質量,那就是抽樣,抽取整條流水線上的部分手機進行檢驗,會得到乙個合格率,然後用這個合格率去估計整條流水線的合格率,同樣這種方式也是點估計

那現在是不是大概理解點估計的意思了,就是用隨機抽樣的樣本的計算出來的指標值去估計整體指標情況。常用的點估計方法有如下:

用樣本均值估計總體均值

以前上學的時候經常會考試,考完試以後老愛去估分,一般人估分不太可能直接估乙個具體的數,肯定都是估乙個大概的數,啥叫大概的數呢?就是比如高考分數預計 600 左右,這個左右其實就是乙個區間,還有平常很多食品包裝袋上會寫 ±0.5 kg,表示啥意思呢?就是要麼多給了你 0.5 kg,要麼少給了你 0.5 kg。我們把這種用乙個範圍來對乙個事情進行估計的方式稱為區間估計,得出來的區間就是置信區間

你是估算出乙個區間了,但是你估算的準不准呢?準確度又有多大呢?我們把這個估算的區間的準確度(可信度)稱為置信度。比如說我有 95% 的把握估計我高考分數是 600-650,這裡的置信區間就是 [600,650],置信度就是 95%。

一般置信度和置信區間是同向的,啥意思呢?就是置信度和置信區間一般是相同趨勢。當置信度很高時,置信區間也會很大;當置信區間很大時,置信度也會很高。

比如我有 100% 的把握估計我高考分數是 0-750,這裡的置信區間是 [0,750] 包含了所有分數的可能,那置信度肯定是 100% 哈。

那麼我們該如何通過部分樣本來計算總體的乙個置信區間呢?主要有下面幾個步驟:

step1:首先明確要求解的問題。就是你要預估什麼?不管是全校學生身高還是學生成績。

step2:求抽樣樣本的平均值與標準誤差(standard error)。注意標準誤差與標準差(standard deviation)不一樣(標準差反映了整個樣本對樣本平均數的離散程度,標準誤差反映樣本平均數對總體平均數的變異程度)。

標準差等於方差開根號。

step3:確定需要的置信水平。比如常用的 95% 的置信水平,就是我有 95% 的把握估算對,這樣可以保證樣本的均值會落在總體平均值2個標準差範圍內。

step4:查z表,求z值。什麼是z表呢?是不是已經忘記了,z表是標準正態分佈表,是用來反映標準分與概率值之間的關係表,也就是通過標準分能查到概率值,通過概率值也可以反查標準分。

現在我們知道了 95% 的置信水平對應的概率值是 2.5% ,只需要通過標準正態分佈表查出 2.5% 概率對應的標準分即可,也就是z值。

常用置信水平與標準分z值的對應表

置信水平

z值90%

1.64

95%1.96

99%2.58

step5:計算置信區間

a = 樣本均值 - z*標準誤差

b = 樣本均值 + z*標準誤差

最後置信區間就為 [a,b]。

5。 通過置信度查z值表!!!!

例1,置信度為95%,那麼1-0.95=0.05 0.05/2=0.025 1-0.025=0.975 在表中查與0.975最相近的數值 對應的就是你要的數值 如該題就是1.96

例2,因為置信水平為95%=1-a,所以a=5%,

1-(a/2)=0.975,

再從標準正態分佈圖中找到0.975這個數,將這個數對應的橫向數和縱向數想加,比如0.975的縱向數為1.9,橫向數為0.06,所以相加得1.96

z值表

置信區間與置信度

本文簡要介紹了置信區間這一核心概念,它有助於我們從直觀上理解評價估計優劣的度量方法。假設你想知道美國有多少人熱愛足球。為了得到 100 正確的答案,你可以做的唯一一件事是向美國的每一位公民詢問他們是否熱愛足球。根據維基百科,美國有超過 3.25 億的人口。與 3.25 億人談話並不現實,因此我們必須...

關於置信度和置信區間的解釋

所謂置信度,也叫置信水平。它是指特定個體對待特定命題真實性相信的程度.也就是概率是對個人信念合理性的量度.概率的置信度解釋表明,事件本身並沒有什麼概率,事件之所以指派有概率只是指派概率的人頭腦中所具有的信念證據。置信水平是指總體引數值落在樣本統計值某一區內的概率 而置信區間是指在某一置信水平下,樣本...

置信區間 confidence interval

置信區間 find an interval such that reasonbly confident that were is a 95 chance that the true p x sampling distribution of the sample mean mean of the sa...