第2章 資料的蒐集

2021-10-11 17:24:04 字數 1402 閱讀 2831

資料的**

所有統計資料追蹤其初始**,都是來自調查實驗。但是,從使用者的角度看,統計資料主要有兩個渠道:乙個是資料的間接**,即資料是由別人通過調查或實驗的方式蒐集的,使用者只是找到它們並加以使用,對此我們稱為資料的間接**。另乙個是通過自己的調查或實驗活動直接獲得一手資料,對此我們稱為資料的直接**。

a. 資料的間接**

b. 資料的直接**

雖然二手資料具有蒐集方便、資料採集快、採集成本低等優點,但對乙個特定的研究問題而言,二手資料的主要缺陷是針對性不夠,所以僅僅靠二手資料還不能回答研究所提出的問題,這時就要通過調查和實驗的方法直接獲得一手資料。我們把通過調查方法獲得的資料稱為調查資料,把通過實驗方法得到的資料稱為實驗資料。

調查方法

在資料採集階段,統計學家面臨的乙個關鍵問題是如何抽選出乙個好的樣本。好的樣本都是相對而言的,相對包括兩方面的含義:乙個含義是針對研究問題而言的。不同的研究問題,對樣本的要求會有所差別,對某乙個研究問題,這可能是乙個不錯的樣本,對另乙個研究問題,這個樣本可能就是糟糕的。另乙個含義是針對調查費用與估計精度的關係而言的

使用抽樣採集資料的具體方式有多種,可以將這些不同的方式分為兩類:概率抽樣和非概率抽樣。

a. 概率抽樣

概率抽樣也稱隨機抽樣,是指遵循隨機原則進行的抽樣,總體中每個單位都有一定的機會被選入樣本。它具有下面幾個特點:

調查實踐中經常採用的概率抽樣方式有以下幾種:

b. 非概率抽樣

非概率抽樣是相對於概率抽樣而言的,指抽取樣本時不是依照隨機原則,而是根據研究目的對資料的要求,採用某種方式從總體中抽取部分單位對其實施調查。

非概率抽樣的方式有多種,可以歸為以下幾種型別:

c. 概率抽樣與非概率抽樣的比較

概率抽樣與非概率抽樣是性質不同的兩種抽樣型別,在調查中採用何種抽樣型別取決於多種因素,包括研究問題的性質、使用資料要說明的問題、調查物件的特徵、調查費用、時間等。

由於非概率抽樣不是依據隨機原則抽選樣本,樣本統計量的分布是不確切的,因而無法使用樣本的結果對總體相應的引數進行推斷。

使用概率抽樣可以有效地避免主觀選擇帶來的傾向性誤差(系統偏差),可以計算和控制抽樣誤差

d. 蒐集資料的基本方法

樣本單位確定之後,對這些單位實施調查,即從樣本那裡得到所需要的資料,可以採用不同的方法。蒐集資料的基本方法有以下幾種:

資料的誤差

資料的誤差是指通過調查蒐集到的資料與研究物件真實結果之間的差異。

資料的誤差有兩類:抽樣誤差和非抽樣誤差

第2章 資料抽象

2.1 宣告與定義 宣告 向計算機介紹名字,不分配儲存空間,使用關鍵字extern,函式宣告 可以不用extern,只用不帶函式體的函式名連同參數列或返回值。定義 為這個變數或者函式申請儲存空間,對變數,編譯器確定它占用多少儲存單元,在記憶體中產生存放它們的空間 對函式,編譯器產生 並為之分配儲存空...

資料探勘 第2章 資料

二 資料質量 三 資料預處理 四 相似性和相異性度量 1 基本概念 資料 資料集可以看做資料物件的集合。資料物件有時也叫做記錄 點 向量 模式 案例 樣本 觀測或實體。資料物件用一組刻畫物件基本特性的屬性描述。屬性有時也叫做變數 特性 字段 特徵或維。通常,資料集是乙個檔案,其中物件是檔案的記錄,而...

第 2 章 資料型別

2.1 識別符號與關鍵字 識別符號規則一 關於引導字元和後續字元,只要是unicode編碼的字元都可以作為引導字元包括ascii字元,下劃線 以及大多數非英文本元。後續字元是任意的引導字元,或者非空格,包括unicode中認為是數字的字元。識別符號大小寫敏感。規則二 識別符號不能與python的關鍵...