統計學中p值計算公式簡單談談基礎的統計學知識

統計學可以分為：描述統計學與推斷統計學

一、描述統計學：使用特定的數字或圖表來體現資料的集中程度和離散程度。

運用的工具有：平均數、中位數、眾數、幾何平均數、調和平均數、方差、標準差等。

例如箱線圖就可以很好反映其中部分重點統計值。

二、推斷統計學：根據樣本資料推斷總體的資料特徵。

相比描述統計學，大家對推斷統計學可能會相對陌生一點。首先用乙個例子來簡單說明一下為什麼會有推斷統計學。比如，你想去調查東北地區成年男性的平均身高和體重，首先想到的最直接的方法就是把所有東北成年男性都測量一遍，然後計算出平均身高和體重。但是這種方法仔細想想，雖然直接，但是既不可行也不可取。那麼另外一種方法就是隨機抽樣，抽取一定數量的東北成年男性進行身高和體重的測量，然後根據樣本的值估算出總體的值。那這種方法運用到的就是推斷統計學。

推斷統計包括兩方面的內容：引數估計和假設檢驗。

1、引數估計：

引數估計是根據從總體中抽取的樣本估計總體分布中包含的未知引數的方法。它是統計推斷的一種基本形式，分為點估計和區間估計兩部分。

還是用如上調查東北成年男性身高、體重的例子，例如抽樣測量了10000人的身高體重，得到10000人的平均身高、平均體重，那麼可以用10000個樣本的平均身高、平均體重來估計整體（整個東北地區成年男性）的平均身高、體重。這就是乙個點估計的例子。

但是，需要注意，以上例子容易讓人誤解，以為點估計就是完全將總體的計算方法移到樣本上進行計算。但是實際上，對於各項指標（平均數、方差等），樣本和總體的計算公式是可能存在差異的。

用樣本均值

用樣本方差

估計總體方差

從上兩個式子可以看出，均值的計算方法在樣本和總體上是相同的。但是方差的計算方法，樣本方差計算公司的分子為n-1（樣本總數-1），而總體方差計算公式的分子為n（總體總數）。這個差異簡單來理解可以認為是在均值確定的基礎上，樣本的自由度其實是（n-1）。當然公式也可以推理得來，此處不再贅述。但是推理過程的基礎很重要，值得一提：

點估計的估計量要滿足三個要求：無偏性(unbiased)，有效性(efficient)，一致性(consistent)。

無偏性：在重複抽樣的前提下，所選統計量的期望值應當等同於真實引數值，即

。有效性：如果有兩個統計量都是無偏估計量，那麼應當選擇變異性(variation)最小的那個作為點估計量。

一致性：當樣本容量增大時，點估計值應當不斷逼近真實的引數值。

前面已經看到，點估計是利用樣本資料估計出乙個具體的數值，那麼區間估計是通過樣本資料，在可信度下前提下得到乙個估計的區間。

在具體說明區間估計之前，我們需要明確乙個概念，那就是總體資料的分布會影響樣本的分布情況，進而會影響區間估計的分布選擇，具體如下表所示：

同樣，舉例說明，東北成年男性身高例子，我們假設身高符合正態分佈、方差未知，已經樣本數量為大樣本（10000個），那麼此時可以選擇t分布或者z分布進行估計。

t分布：區間估計公式為：

z分布：區間估計公式為：

其中上兩式子中

為樣本均值，

為樣本標準差，n為樣本數量。

和是根據置信度查表得到的值。

也叫做標準誤。

標準差 = 一次抽樣中個體分數間的離散程度，反映了個體分數對樣本均值的代表性，用於描述統計。

標準誤 = 多次抽樣中樣本均值間的離散程度，反映了樣本均值對總體均值的代表性，用於推論統計。

假定總體分布為正態分佈，方差未知。樣本數量為11。那麼根據上文的**，應該選定t分布對樣本進行估計。

假設樣本的均值為1.7，標準差為0.8，置信度為99%，雙尾檢驗。那麼查表（置信度99%，自由度為樣本數量-1=10，那麼查表得到3.169。因此區間估計

為（1.7-3.169*0.8/3.3166，1.7+3.169*0.8/3.3166)，其中3.3166為根號11的數值。

t分布表

2、假設檢驗：

假設檢驗是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。

假設檢驗一般包括如下幾個步驟：

1）設假設：需要設定乙個原假設，乙個備擇假設（兩個假設加起來是全集），等號一般放在原假設中。一般把想要證明的內容放到備擇假設中。

2）畫出分布；

3）計算檢驗統計量test-statistics

4）根據分布，判斷檢驗統計量與臨界值的大小

5）判斷是否拒絕假設，得出結論。

通過乙個例子說明：假設癌症病人去世的時間滿足如下正態分佈（均值為10，標準差為2），某藥企發明了一種藥，聲稱能夠延長癌症病人的壽命。我們選取一名服用該藥物的人員，該人員去世時間為12個月。我們想判斷該藥物是否能延長癌症病人壽命。我們可以用假設檢驗的方法來進行檢驗：

總體滿足正態分佈

1）設假設：

原假設：此藥不能延長壽命；壽命<=8

備擇假設：此藥能延長壽命；壽命》8

2）總體樣本滿足正態分佈，方差已知，選擇z分布。

3）計算檢驗統計量：x=12，對應的z值為（12-8）/2=2。

4）當置信度選擇97.5%，此時為單尾檢驗，臨界值為1.96。

5）由於2>1.96，因此認為此事件為小概率事件，拒絕原假設，接受備擇假設。得出結論：該藥物確實能延長癌症病人壽命。

如上例子僅僅選取了乙個樣本來進行檢驗，下面再用乙個例子說明：

假設對於某乙個器件，國家標準要求：平均值要低於20。

運用假設檢驗判斷該公司器件是否符合國家標準：

1）設假設：

原假設：器件平均值》=20；

備擇假設：器件平均值<20；

2）總體為正態分佈，方差未知，樣本為小樣本，因此採用t分布。

3）計算檢驗統計量：樣本平均值17.17，樣本標準差2.98，檢驗統計量為

（注意此處檢驗統計量的計算公式）

4）當置信度選擇97.5%，自由度為9，此時為單尾檢驗，臨界值為2.262。

5）由於-3.0031

統計學中p值計算公式簡單談談基礎的統計學知識

統計學中p值計算公式統計學中的P值應該怎麼計算

統計學P值

在統計學中統計學中的基本概念

統計學中p值計算公式 簡單談談基礎的統計學知識

統計學中p值計算公式 統計學中的P值應該怎麼計算

統計學P值

在統計學中 統計學中的基本概念

相關推薦

統計學中p值計算公式簡單談談基礎的統計學知識

統計學中p值計算公式統計學中的P值應該怎麼計算

在統計學中統計學中的基本概念