統計學基本知識 datawhale 任務一,二

2021-09-11 12:36:06 字數 1368 閱讀 3286

按照網易雲課堂可汗學院統計學進度,從第1課~34課

條形圖線型圖

餅圖箱線圖

莖葉圖各種作用就不一一闡述了,比較基礎。

總體和樣本

總體是統計學解決任何乙個問題都有待認識客觀事物的全體,稱作統計總體。總體單位是組成總體的各個個體。樣本則是為了認識總體而從總體中選取的實際觀測的個體和。

二項分布

設在n重貝努利試驗中,事件只有兩種結果,且p(a)= b,二項分布記為x~b(n,b)

數字特徵:數學期望e(x)= nb ,方差var(x)= nb(1-b)

大數定律

隨著樣本數的增加,樣本均值會收斂於總體均值,或叫隨機變數的期望值。

大數定律並不在意樣本的數量(因為樣本數量趨近於無窮),所以並不是說前面樣本的均值高於期望值,後面樣本的均值就低於期望值以來補償。(這是「賭徒謬論」)

正態分佈 f(x

)=12

πσ∗e

−(x−

μ)22

σ2

f(x)=\frac\sigma}*e^}

f(x)=2

π​σ1

​∗e2

σ2−(

x−μ)

2​如果要算正態分佈的概率密度函式的面積,則需用到累積分布函式去求積分,這裡不作演示。

這裡 x−μ

σ\frac

σx−μ

​ 稱作標準z分數,表示該值距離均值幾個標準差。

基於正態分佈的三大分布x

2x^2

x2分布,t分布和f分布會在之後涉及。

6. 標準正態分佈

當μ =0

,σ2=

1\mu = 0,\sigma^2 = 1

μ=0,σ2

=1則為標準正態分佈。任何正態分佈都能通過標準化轉換成標準正態分佈。

7. 經驗法則(3σ

\sigma

σ法則)

對於正態分佈 x−n

(μ,σ

2)

x - n(\mu,\sigma^2)

x−n(μ,

σ2) 取值的概率,在區間(μ−

σ,μ+

σ)

(\mu - \sigma,\mu + \sigma)

(μ−σ,μ

+σ), (μ−

2σ,μ

+2σ)

(\mu - 2\sigma,\mu + 2\sigma)

(μ−2σ,

μ+2σ

), (μ−

3σ,μ

+3σ)

(\mu - 3\sigma,\mu + 3\sigma)

(μ−3σ,

μ+3σ

) 內取值的概率分別為68.3%,95.4%,99.7%。

統計學基本知識 datawhale 任務三

假設檢驗是數理統計中根據一定假設條件由樣本推斷總體的一種方法,依據的原理是小概率事件原理,即小概率事件在一次試驗中是幾乎不可能發生的。建立假設 原假設與備擇假設 原假設記作h 0h 0 h0 是指待檢驗的假設,一般為研究者想要收集證據反對的,沒有充分理由否定的假設。備擇假設記作h 1h 1 h1 是...

統計學 論統計學知識點

二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...