統計學 統計學基礎

2021-08-29 15:55:11 字數 3499 閱讀 4110

五種抽樣方法:

1、簡單隨機:選取熱量相同且每個樣本有同等概率被選擇的樣本

2、系統:簡單的系統抽取樣本

3、任意:使用乙個碰巧很容易被選擇的樣本

4、整群:先將總體分為不同組群,從中隨機挑選幾個組群作為樣本

5、分層:定義層級,在每個層級隨機抽取樣本。

抽樣方法的選擇一定要符合:

1、只有樣本對總體具有代表性,研究才有意義

2、有偏差的樣本不可能是代表性樣本

3、由於在實際選擇樣本時運氣不好,即使是乙個精心選擇的樣本也可能不具有代表性

總體:所研究的人或事物的完整集合

總體引數:總體中對某變數的概括性描述

樣本:總體的子集

原始樣本:對樣本進行實際測量或觀測所收集的資料

樣本統計量:描述從原始樣本中篩選總結的樣本特徵的資料

誤差幅度:描述乙個很可能包含總體引數的值域或置信區間

樣本統計量 — 誤差幅度 到 樣本統計量 + 誤差幅度

統計研究的兩種基本類別:

1、觀察研究中,調查者只是觀察或測量主體的特徵,並不影響或改變這些特性

2、實驗研究中,調查者進行一些處理並觀察其對實驗個體的效果

變數:可以變化或有不同取值的專案或者數量

目標變數:研究中所需要測量的專案或數量

解釋變數:解釋引起效果的變數

反應變數:反應解釋變數變化程度的變數

混雜變數:不能確定特定變數的影響程度,導致混亂的變數(不同變數間存在混合影響,則存在混雜性。)

觀察研究的變數:

1、回顧性研究(個案對照研究):使用過去的資料

2、前瞻性研究(縱向研究):從擁有共同影響因素的組群中收集未來的觀測資料

實驗組和對照組:

實驗組:在實驗中得到處理的群體

對照組:在實驗中沒有得到處理的群體

選擇實驗組和對照組策略:

隨機分組:確保實驗主體被隨機分為實驗組和對照組

充分大的樣本:確保實驗組和對照組都是充分的大樣本

實驗者效應:調查者和實驗者通過某些因素影響研究物件

實驗中的盲法:

單盲試驗:參與者不知是實驗組還是對照組成員,而實驗者知道的實驗

雙盲實驗:參與者和實驗者不知自身是實驗組還是對照組成員

綜合分析:調查者回顧以往資料,將其作為乙個群體的研究。

批判性評估統計研究的八個原則:

(1)明確統計研究的目標、總體和型別。

(2)考慮**。特別要注意研究人員自身的潛在偏差。

(3)注意樣本偏差。檢查抽樣方法是否可以得到乙個代表性樣本。

(4)注意有關定義或度量目標變數的問題。變數的模糊性會給解釋報告結果帶來困難。

(5)注意混雜變數。如果研究中忽視潛在的混雜變數,所得結果可能是不可靠的

(6)考慮調查的問題設定和敘述。尤其要注意任何可能導致不精確或不真實回答的情況。

(7)確保結果被合理地呈現。例如,檢查研究是否支撐在**上呈現的結論。

(8)客觀地考慮結論。例如,評估研究是否達到預期目標。如果是,那麼研究結論是否有意義並具有實際價值。

選擇性偏差(或選擇效應):是指研究人員以一種有偏方式選擇樣本而出現的偏差

參與性偏差:是指只要參與研究是自願的就會出現的偏差。

自主選擇調查(或自願回答調查):是指人們自主決定是否參與的調查

定性(分類)資料:非數值類別

定量資料(離散+連續):數量或尺度的值

離散資料和連續資料

1、連續資料能夠在給定的區間中取任乙個值

2、離散資料能取特定的、個別的值,而不能取這些值之間的值。

測量尺度:

1、定類測量:的資料僅僅是由名稱、代號、類別組成的資料。定類測量的資料是定性資料,不能對其進行等級劃分和排列。

2、定序測量:距用於可以按某一順序進行排列(如從低到高排列)的定性資料。通常,對定序測量的資料進行計算是沒有意義的。

3、定距測量:適用於間距有意義,而比例沒有意義的定量資料。定距測量資料的零點是任意的。

4、定比測量:用於間距和比例都有意義的定量資料。定比測量資料的零點是確定的。

資料型別和測量尺度的關係(圖)

測量誤差的兩種型別:

1、隨機誤差:產生是由於測量過程中存在隨機的以及固有的不可孤知的件

2、系統誤差:的產生是由於測量系統存在間題,這個問題一直以相同的方式影響所有測量結果。

絕對誤差和相對誤差:

絕對誤差:描述測量值與真實值之間的差距

絕對誤差 = 測量值 - 真實值

相對誤差:絕對誤差的大小與真實值相比

相對誤差 = 絕對誤差 / 真實值 * 100%

準確度和精確度:

準確度:描述了測量值與真實值的接近程度乙個準確的測量值與真實值非常接近(接近通常被定義為有乙個小的相對誤差而不是絕對誤差

精確度:描述了測量中數值的詳細程度

絕對變化和相對變化:

絕對變化:參考值到新值的實際增加或者減少

絕對變化 = 新值 - 參考值

相對變化: 絕對變化的大小與參考值之比

相對變化 = (新值 - 參考值)/ 參考值 *100%

絕對差異和相對差異:「是多少」與「多多少」(或「少多少」):

如果新值或比較值比參考值多p%,那麼新值或比較值是參考值的(100+p)%

如果新值或比較值比參考值少p%,那麼新值或比較值是參考值的(100-p)%。

百分點與%:

當我們看到乙個變化或差異用百分點表示的時候,可以假設這是絕對變化或絕對差異。如果是用百分數表示,很可能是相對變化或相對差異

指數:

指數為比較不同時間、不同地點的測量值提供了一種簡單的方法。必須選擇某一時間(或地點)的數值為參考值(或基礎值),其他時間(或地點)的指數是:

指數 = 數值/參考值 * 100%

統計學基礎 三

分類資料 眾數 出現最多的變數值,峰值 順序資料 中位數 位置在中間的變數值 位置 分位數 上四分位位置 假設目前有9個資料,則下四分位 9 4 2.25,資料位於第二位和第三位資料的25 的位置。假設目前有9個資料,則上四分位 3 9 4 6.75,資料位於第六位和第七位資料的75 位置。數值型資...

統計學 論統計學知識點

二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...

統計學陷阱

1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...