Udacity課程脈絡 統計學基礎(一)

2021-08-23 12:20:55 字數 3146 閱讀 8199

前言

描述統計學入門

intro to inferential statistics(推論統計學)

這篇文章的歸納的知識點如下

中心極限定理(抽樣分布):

對於均值分布,其中每個均值都是樣本量為 n 的均值,該分布的標準偏差就等於總體標準偏差除以平方根 n,這就叫做中心極限定理,數學公式表達為

m = ( x1 + x2 + … + xn ) / n

m ~ n(μ,σ²/n)

中心極限定理適用於任何總體,總體可以是任何形狀。

假設我們從中抽取乙個樣本並計算出均值,然後再抽取出乙個樣本並計算出均值,持續這麼操作。

如果畫出均值分布圖的話,形狀會是相對正態的,其中標準偏差等於總體標準偏差除以樣本量的平方根叫做se即標準誤差。

如下圖所示:

置信區間

可以結合知乎上這個問題的第乙個回答來理解(關於人類身高的栗子)

如何理解 95% 置信區間

置信區間展現的是引數的真實值(μ)有一定概率落在測量結果的周圍的程度。置信區間給出的是被測量引數的測量值的可信程度。

注意:下圖是乙個抽樣分布,根據中心極限定理,樣本均值m服從如下正態分佈:

m ~ n(μ, σ²/n)

注:總體的μ未知,σ和n已知

假設檢驗與顯著性水平(臨界區域)

某個樣本的均值位於任何乙個臨界區,表示不太可能發生,如果位於綠色區域,即最小的臨界區,我們將報告最小的α水平。因為這表明樣本統計資料與總體引數非常不同,因此證明很有可能採取了任何形式的人為處理措施。

下圖中z=1.82,我們可以說在比例小於0.05時具有統計顯著意義。因為1.82位於紅色區域的某個位置,表明獲得這個樣本均值的概率小於0.05,但並不小於0.01,所以它僅在比例小於0.05時具有統計顯著意義。

這基本上就是假設檢驗的思路。

單尾檢驗 & 雙尾檢驗

假設檢驗

在進行統計檢驗時,我們自己設定判斷條件,即我們自己選擇乙個α水平,然後規定如果獲得特定樣本均值的概率小於該α水平,那麼就證明有效。通常會選擇α水平0.05,在單尾檢驗和雙尾檢驗兩種情形下都存在兩種可能的結果,樣本均值要麼位於臨界區之外,要麼位於臨界區之內,我們將這兩種結果成為零假設,並用h0(零假設)或ha(對立假設)來表示。

零假設認為當前總體引數和在某種干預後出現的新總體引數之間沒有顯著差異。我們將表示為當前總體引數μ等於干預後的總體引數 (注:這裡說的等於並非完全等於,我們只是說二者沒有顯著差異)。對立假設猜測存在顯著差異,當前總體均值將比干預後的總體均值小或大,或者二者之間不相等。

對於零假設,當我們猜測這兩個引數之間沒有顯著差異時,樣本均值將位於臨界區之外,在上圖的白色區域,同時應注意對於單尾檢驗,臨界區可能在左端而非右端。

對立假設猜測有顯著差異,表明樣本均值將位於臨界區的某個位置。

以乙個雙尾假設檢驗為栗:

已知量:總體均值μ和σ。樣本大小n和樣本均值。

通過已知量計算抽樣分布z值:注意上圖的正態分佈表示的樣本均值分布。樣本均值的均值應該和總體均值相同。標準偏差應等於總體標準偏差除以平方根n,我們想知道樣本均值位於這個分布哪個位置也就是說z值為多少。

最終結果如下圖:

z值1.89小於z值1.96,因此樣本均值位於白色區域,即某個位於總體均值周圍的95%樣本均值之一,因此我們不能拒絕h0即零假設。沒有足夠的證據可以證明在推出**形式的課程後新的總體引數將與現在的總體引數顯著不同。也就是說根據我們的樣本,我們猜測參與度將保持不變。

假設檢驗(增大樣本量)

如果增加樣本量n=50,假設均值不變還是8.3,此時得出的z=2.44。針對α水平0.05提出同樣的問題。

此次z=2.44大於z臨界值,表明樣本均值位於臨界區的某個位置,樣本量為50的樣本達到均值為8.3的概率非常的小,小於2.5%。因此我們將拒絕零假設,我們有證據證明歌曲對參與度有影響。

i型錯誤和ii型錯誤

用公式表達為p(表示概率)小於0.05(α水平)。因為從樣本量為50的樣本中獲得該樣本均值的概率小於α水平。我們拒絕該零假設的理由是該概率太低。

低概率並不代表不會發生。這種型別的統計分析可能存在理解錯誤。能夠****形式課程的學員,有可能之前參與度就高,我們錯誤的將高參與度均值歸功於**。

我們有可能決策錯誤,引申出下圖中的錯誤型別:

i類錯誤:拒絕了正確的h0假設

ii類錯誤:接受了錯誤的h0假設

可以看出,統計學始終可能會理解有誤,資料只能起到一定的作用,重要的是如何收集資料,樣本量有多大?樣本是隨機的嗎?在做出統計決策時,需要考慮各種因素。

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...

統計學 論統計學知識點

二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...

統計學陷阱

1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...