統計基礎知識

20181115更新

分布左右偏不能使用x均值估計

箱線圖-> max，min，中位數，上下四分位數

畫圖的時候，要標記時間，地點，內容，標題，和編號五個要素

1類錯誤是棄真，有問題結果認為沒問題

2類錯誤是沒問題認為有問題

列聯表分時適用於分類變數的推斷，卡方檢驗

統計量是樣本的函式，樣本不同，計算的統計量也不同

抽樣：選乙個好樣本，現在有種蓄水池抽樣方法

實驗對照組，需要隨機產生，剔除其他影響

p值是當原假設為真時樣本觀察的結果

幾何平均數是用來衡量平均增長率

自由度，獨立變數的個數，也是二次型的秩

樣本方差分布於總體分布，（n-1）s2/o2~x2(n-1)

2個西格瑪可以保證95%的置信區間

無偏性：統計量抽樣分布的期望等於總體引數

有效性：對於同乙個無偏統計量，方差越小越好

一致性：n增加時，越準確

1：統計學三大分布，呵呵，沒有正態，f，t，卡方分布

f分布（f檢驗）用來檢驗方差齊性，可用直方圖和p-p圖來檢驗（spss/r），如果方差隨自變數x變大而變大，說明方差不齊，各個樣本的資料可能不是來自乙個整體，

比如汽車擁有量，大城市的樣本多，小城市樣本少，人口對於模型的影響較大，因此要做乙個修正。。或者改用非引數檢驗

關於正態性檢驗，先可以畫個直方圖，樣本量大於50看sw檢驗，樣本量小於50看ks檢驗

t分布：自由度ν越小，t分布曲線越低平；自由度ν越大，t分布曲線越接近標準正態分佈（u分布）曲線。t分布其實是由正態分佈和卡方分布共同推導而來的，它的思路是樣本的均值服從正態分佈，而實際方差不能僅僅簡單等同於樣本中計算來的方差，要等同於乙個服從卡方分布的方差，最後推導出了t分布。t分布中也有自由度的概念，往往採樣本數減去1為自由度v。

卡方分布：若干個隨機變數的平方和服從卡方分布，用來檢驗隨機變數是否服從其給定的概率的，服從某種分布的。貌似在列聯表裡有用到。

t檢測：應用於小樣本的情況。中心極限定理告訴我們隨著樣本的容量變大，樣本的均值將成正態分佈，而當樣本較小的時候分布則更接近t分布。

協方差：表示x, y 相互關係的數字特徵，cov(x, y) = e(x-ex)(y-ey)，當 cov(x, y)>0時，表明 x與y 正相關；當 cov(x, y)<0時，表明x與y負相關；當 cov(x, y)=0時，表明x與y不相關。

變異係數：將離散程度標準化，等於均值除以方差

大數定律：當n很大，樣本均值約等於期望

中心極限定律：不管什麼分布，獨立隨機變數的均值分布趨近於正態分佈

泊松分布：一段時間內或者一定空間內事件的發生次數的對應概率。

統計基礎知識

統計基礎知識

統計學基礎知識（二）

統計假設檢驗基礎知識

統計基礎知識

統計基礎知識

統計學基礎知識（二）

統計假設檢驗基礎知識

相關推薦