資料處理中需要知道的基本資料知識

1、資料型別：定量、定性、和其它特性。

資料型別決定可以使用何種工具和技術來分析資料。

新的應用領域和新的資料型別推動新的資料探勘研究。

2、資料質量：

注重理解和提高資料質量，將改進分析結果的質量，大多數時候好的資料比好的演算法更重要。

通常的資料質量問題：存在雜訊和離群點、資料遺漏、不一致和重複、資料有偏差。

3、使得資料更適合資料探勘的預處理步驟：處理使之更適合於分析，目的：

（1）提高資料質量

（2）更好地適應特定的dw技術活工具(例如：連續值轉離散值、資料集屬性數目需減少)。

4、根據「資料聯絡」分析資料。

5、重要原則：一定要了解資料，可以通過各種手段進行分析，常見手法如視覺化分析。

6、資料集：資料物件的集合

資料物件別名（記錄、點、向量、模式、事件、案例、樣本、觀測活實體）

屬性別名（變數、特性、字段、維）

7、屬性：符號屬性、數值屬性。

測量標度（measurement scale）：將資料或符號與物件屬性相關聯的規則(函式)。

8、屬性型別，也稱測量標度的型別。

4中性質：相異性、序、加法、乘法。（以此定義4種屬性型別：標稱nominal、序數ordinal、區間interval、比率ratio）其定義依據是操作性質的範圍越來越窄。

標稱、序數統稱分類的（categorical）或定性的（qualitative）屬性。

區間、比率屬性統稱定量（quantitative）或數值（numeric）屬性。

【例子】

標稱型：一般在有限的資料中取，而且只存在『是』和『否』兩種不同的結果（一般用於分類）

數值型：可以在無限的資料中取，而且數值比較具體化，例如4.02,6.23，0.27這種值（一般用於回歸分析）

監督學習中的分類方法輸出是標稱型資料，回歸方法輸出是數值型資料。

【標稱屬性和數值屬性具體解釋】

屬性，表示資料物件的乙個特徵。

標稱屬性(nominal attribute)意味著『與名稱相關』，它的值是一些符號或事物的名稱。每個值代表某種類別，編碼或狀態，因此標稱屬性又被看作是分類的(categorical)。這些值不必具有有意義的序。在電腦科學中，這些值也被看做是列舉的(enumeration)。在標稱屬性上，數**算是沒有意義的。二元屬性(binary attribute）是一種標稱屬性，只有0，1兩種狀態。通常0表示不出現，1表示出現。

序數屬性(ordinal attribute)，其可能只具有有意義的序或評定(ranking)，但是相繼值之間的差是未知的，具有先後順序。序數屬性可以通過把數值量的值域劃分成有限個有序類別，把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示，但不能定義均值。

以上屬標稱屬性和序數屬性

都是定性的。即它們描述物件的特徵，而不給出實際大小或數量。

數值屬性(numeric attribute)是定量的，即它是可度量的量。數值屬性可以是區間標度的或比率標度的。

區間標度屬性(interval-scaled attribute)用相等的單位尺度度量。區間屬性的值。

比率標度(ratiao-scaled)屬性具有固定零點的數值屬性。可以進行數值運算。

屬性型別也可用允許的變換（permissible transformation）來描述。

9、用值的個數描述屬性：離散（discrete）、連續（continuous）

計數屬性（count attribute）是離散也是比率屬性。

10、非對稱屬性(asymmetric attribute)：

非對稱屬性的含義：出現非零屬性值才是重要的。

11、資料集對挖掘技術有影響的特性：維度、稀疏性、解析度（resolution）。

維度：維災難（curse of dimensionality）、維規約（dismensionality reduction）。

稀疏性（sparsity）。

資料模式也依賴於解析度。

12、記錄資料、事務或購物籃資料、資料矩陣（模式矩陣）、稀疏資料矩陣。

13、基於圖形的資料

（1）捕獲資料物件之間的聯絡（即圖形化表示）

（2）具有圖形物件的資料。

14、有序資料：

（1）時序資料（sequential data）、時間資料（temporal data）

（2）序列資料（sequence data）

（3）時間序列資料（time series data）：注意資料會存在時間自相關性（temporal autocorrelation）

（4）空間資料（spatial data）：注意時間會存在空間自相關性（spatial autocorrelation）

15、處理非記錄資料

資料質量。

檢測和糾正（成為資料清理data cleaning）。

使用可以容忍低質量資料的演算法。

16、資料測量和收集。

（1）測量誤差（measurement error）和資料收集錯誤（data collection error）

（2）雜訊和偽像：魯棒演算法及是針對雜訊設計的。

（3）精度、偏倚、準確率、有效數字。

精度：偏倚：

準確率：

有效數字：

17、離群點（outlier）、異常（）

遺漏值（方法：刪除資料物件或屬性、估計遺漏值、分析時忽略遺漏值）

18、不一致的值：去重（deduplication）

19、在應用中的資料相關問題：時效性、相關性（抽樣偏倚）、關於資料的知識。

資料處理中需要知道的基本資料知識

python中基本資料處理

學資料分析需要知道的知識（二）

學資料分析需要知道的知識（二）

資料處理中需要知道的基本資料知識

python中基本資料處理

學資料分析需要知道的知識（二）

學資料分析需要知道的知識（二）

相關推薦