樣本方差的無偏估計與(n 1)的由來

2022-07-22 15:33:24 字數 2090 閱讀 6245

所謂總體引數估計量的無偏性指的是,基於不同的樣本,使用該估計量可算出多個估計值,但它們的平均值等於被估引數的真值。

在某些場合下,無偏性的要求是有實際意義的。例如,假設在某廠商與某銷售商之間存在長期的供貨關係,則在對產品出廠質量檢驗方法的選擇上,採用隨機抽樣的方法來估計次品率就很公平。這是因為從長期來看,這種估計方法是無偏的。比如這一次所估計出來的次品率實際上偏高,廠商吃虧了;但下一次的估計很可能偏低,廠商的損失就可以補回來。由於雙方的交往會長期多次發生,這時採用無偏估計,總的來說可以達到互不吃虧的效果。

不過,在某些場合中,無偏性的要求毫無實際意義。這裡又有兩種情況:一種情況是在某些場合中不可能發生多次抽樣。例如,假設在某廠商和某銷售商之間只會發生一次買賣交易,此後不可能再發生第二次商業往來。這時雙方誰也吃虧不起,這裡就沒有什麼「平均」可言。另一種情況則是估計誤差不可能相互補償,因此「平均」不得。例如,假設需要通過試驗對乙個批量的某種型號飛彈的系統誤差做出估計。這個時候,既使我們的估計的確做到了無偏,但如果這一批飛彈的系統誤差實際上要麼偏左,要麼偏右,結果只能是大部分飛彈都不能命中目標,不可能存在「偏左」與「偏右」相互抵消,從而「平均命中」的概念。

由此可見,具有無偏性的估計量不一定就是我們「最需要」的「恰當」估計量。

無偏估計是引數的樣本估計值的期望值等於引數的真實值。估計量的數學期望等於被估計引數,則稱此為無偏估計。    

設a'=g(x1,x2,...,xn)是未知引數a的乙個點估計量,若a'滿足     e(a')= a     則稱a'為a的無偏估計量,否則為有偏估計量。     

注:無偏估計就是系統誤差為零的估計。

由於公式a'=g(x1,x2,...,xn)中的x1,x2,...,xn一般為一次抽樣的結果,沒有明確是怎麼抽樣的乙個過程,所以導致不好理解為什麼a'就是a的無偏估計量,特別是很難舉出例項來給與證明。

經過自己的查閱資料和理解,實際上無偏估計量可以理解如下:

簡單的理解,無偏估計量就是:在樣本中進行n次隨機的抽樣,每次抽樣都可以計算出乙個對某乙個引數的點估計量,計算n次,得到n個點估計量,然後對n個點估計量計算期望,得到的值和需要估計的總體引數相等,則稱n中的任何點估計量為總體引數的無偏估計量。

舉例:

比如我要對某個學校乙個年級的上千個學生估計他們的平均水平(真實值,上帝才知道的數字),那麼我決定抽樣來計算。

我抽出乙個10個人的樣本,可以計算出乙個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本裡面計算出來的均值可能就變了,對不對?

因為這個均值是隨著我抽樣變化的,而我抽出哪10個人來計算這個數字是隨機的,那麼這個均值也是隨機的。但是這個均值也會服從乙個規律(乙個分布),那就是如果我抽很多次樣本,計算出很多個這樣的均值,這麼多均值們的平均數應該接近上帝才知道的真實平均水平。

如果你能理解「樣本均值」其實也是乙個隨機變數,那麼就可以理解為這個隨機變數的期望是真實值,所以無偏(這是無偏的定義);而它又是乙個隨機變數,只是估計而不精確地等於,所以是無偏估計量。

假設x為獨立同分布的一組隨機變數,總體為m,隨機抽取n個隨機變數構成乙個樣本,

和是總體的均值和方差, 是常數。

是對樣本的均值和方差,由於樣本是隨機抽取的,

也是隨機的。

既然是隨機變數,就可以觀察他們的均值方差。

這裡需要注意的是,由於樣本是隨機的,所以x1,x2,x3...都是隨機的。上式中可以看出,樣本均值這個變數的期望就是總體的均值,因此可以說均值是無偏的。

接下來看樣本方差的均值:

根據方差公式,可以得到:

因此:所以無偏估計的樣本的方差:

。n-1既為自由度,就是說,在乙個容量為n的樣本裡,當確定了n-1個變數以後,第n個變數就確定了,因為樣本均值是無偏的。

協方差除以n-1原理和方差一樣,因為方差為協方差的特殊情況。

參考:

樣本方差的無偏估計與(n 1)的由來

原文出處 在pca演算法中用到了方差,協方差矩陣,其中方差公式為,協方差矩陣公式為,當時不明白為什麼除的不是m,而是m 1,那麼想要知道為何,下面就是你想要的答案。假設x為獨立同分布的一組隨機變數,總體為m,隨機抽取n個隨機變數構成乙個樣本,和是總體的均值和方差,是常數。是對樣本的均值和方差,由於樣...

無偏估計與方差

在閱讀 the elements of statistical learning 第三章的時候,有乙個式子我沒有弄明白 設 y x beta epsilon 其中 epsilon 的均值為 0,方差為 sigma 2 再設 x 是 n times p 1 的矩陣 每條訓練樣本含常數項 1 那麼對 s...

徹底理解樣本方差為何除以n 1

設樣本均值為 很多人可能都會有疑問,為什麼要除以n 1,而不是n,但是翻閱資料,發現很多都是交代到,如果除以n,對樣本方差的估計不是無偏估計,比總體方差要小,要想是無偏估計就要調小分母,所以除以n 1,那麼問題來了,為什麼不是除以n 2 n 3等等。所以在這裡徹底總結一下,首先交代一下無偏估計。無偏...