資料處理中需要知道的基本資料知識

2021-08-19 13:25:52 字數 2711 閱讀 1759

1、資料型別:定量、定性、和其它特性。

資料型別決定可以使用何種工具和技術來分析資料。

新的應用領域和新的資料型別推動新的資料探勘研究。

2、資料質量:

注重理解和提高資料質量,將改進分析結果的質量,大多數時候好的資料比好的演算法更重要。

通常的資料質量問題:存在雜訊和離群點、資料遺漏、不一致和重複、資料有偏差。

3、使得資料更適合資料探勘的預處理步驟:處理使之更適合於分析,目的:

(1)提高資料質量

(2)更好地適應特定的dw技術活工具(例如:連續值轉離散值、資料集屬性數目需減少)。

4、根據「資料聯絡」分析資料。

5、重要原則:一定要了解資料,可以通過各種手段進行分析,常見手法如視覺化分析。

6、資料集:資料物件的集合

資料物件別名(記錄、點、向量、模式、事件、案例、樣本、觀測活實體)

屬性別名(變數、特性、字段、維)

7、屬性:符號屬性、數值屬性。

測量標度(measurement scale):將資料或符號與物件屬性相關聯的規則(函式)。

8、屬性型別,也稱測量標度的型別。

4中性質:相異性、序、加法、乘法。(以此定義4種屬性型別:標稱nominal、序數ordinal、區間interval、比率ratio)其定義依據是操作性質的範圍越來越窄。

標稱、序數統稱分類的(categorical)或定性的(qualitative)屬性。

區間、比率屬性統稱定量(quantitative)或數值(numeric)屬性。

【例子】

標稱型:一般在有限的資料中取,而且只存在『是』和『否』兩種不同的結果(一般用於分類)

數值型:可以在無限的資料中取,而且數值比較具體化,例如4.02,6.23,0.27這種值(一般用於回歸分析)

監督學習中的分類方法輸出是標稱型資料,回歸方法輸出是數值型資料。

【標稱屬性和數值屬性具體解釋】

屬性,表示資料物件的乙個特徵。

標稱屬性(nominal attribute)意味著『與名稱相關』,它的值是一些符號或事物的名稱。每個值代表某種類別,編碼或狀態,因此標稱屬性又被看作是分類的(categorical)。這些值不必具有有意義的序。在電腦科學中,這些值也被看做是列舉的(enumeration)。在標稱屬性上,數**算是沒有意義的。二元屬性(binary attribute)是一種標稱屬性,只有0,1兩種狀態。通常0表示不出現,1表示出現。

序數屬性(ordinal attribute),其可能只具有有意義的序或評定(ranking),但是相繼值之間的差是未知的,具有先後順序。序數屬性可以通過把數值量的值域劃分成有限個有序類別,把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但不能定義均值。

以上屬標稱屬性和序數屬性

都是定性的。即它們描述物件的特徵,而不給出實際大小或數量。

數值屬性(numeric attribute)是定量的,即它是可度量的量。數值屬性可以是區間標度的或比率標度的。

區間標度屬性(interval-scaled attribute)用相等的單位尺度度量。區間屬性的值。

比率標度(ratiao-scaled)屬性具有固定零點的數值屬性。可以進行數值運算。

屬性型別也可用允許的變換(permissible transformation)來描述。

9、用值的個數描述屬性:離散(discrete)、連續(continuous)

計數屬性(count attribute)是離散也是比率屬性。

10、非對稱屬性(asymmetric attribute):

非對稱屬性的含義:出現非零屬性值才是重要的。

11、資料集對挖掘技術有影響的特性:維度、稀疏性、解析度(resolution)。

維度:維災難(curse of dimensionality)、維規約(dismensionality reduction)。

稀疏性(sparsity)。

資料模式也依賴於解析度。

12、記錄資料、事務或購物籃資料、資料矩陣(模式矩陣)、稀疏資料矩陣。

13、基於圖形的資料

(1)捕獲資料物件之間的聯絡(即圖形化表示)

(2)具有圖形物件的資料。

14、有序資料:

(1)時序資料(sequential data)、時間資料(temporal data)

(2)序列資料(sequence data)

(3)時間序列資料(time series data):注意資料會存在時間自相關性(temporal autocorrelation)

(4)空間資料(spatial data):注意時間會存在空間自相關性(spatial autocorrelation)

15、處理非記錄資料

資料質量。

檢測和糾正(成為資料清理data cleaning)。

使用可以容忍低質量資料的演算法。

16、資料測量和收集。

(1)測量誤差(measurement error)和資料收集錯誤(data collection error)

(2)雜訊和偽像:魯棒演算法及是針對雜訊設計的。

(3)精度、偏倚、準確率、有效數字。

精度:偏倚:

準確率:

有效數字:

17、離群點(outlier)、異常()

遺漏值(方法:刪除資料物件或屬性、估計遺漏值、分析時忽略遺漏值)

18、不一致的值:去重(deduplication)

19、在應用中的資料相關問題:時效性、相關性(抽樣偏倚)、關於資料的知識。

python中基本資料處理

def function a,b if a 0 b 0 return 只做夜班 elif a 0 b 0 return 只做白班 elif a 0 b 0 return 未做單 else return 混合 function x.夜間上班時長,x.日間上班時長 axis 1 例 有某工廠工人上班時間...

學資料分析需要知道的知識(二)

那麼我們怎麼找出正確的資料指標呢?這就需要重視幾個細節,那就是定性指標與量化指標。那麼怎麼區分定性指標和量化指標呢?定量資料指的是那些我們跟蹤和衡量的數字。定性資料指的是難量化的資料。定量資料回答的是 什麼 和 多少 這樣的問題,定性資料回答的就是 為什麼 定量資料排斥主觀因素 定性資料吸納主觀因素...

學資料分析需要知道的知識(二)

那麼我們怎麼找出正確的資料指標呢?這就需要重視幾個細節,那就是定性指標與量化指標。那麼怎麼區分定性指標和量化指標呢?定量資料指的是那些我們跟蹤和衡量的數字。定性資料指的是難量化的資料。定量資料回答的是 什麼 和 多少 這樣的問題,定性資料回答的就是 為什麼 定量資料排斥主觀因素 定性資料吸納主觀因素...