商務智慧型大總結5 資料預處理

資料規範化又稱標準化（standardization），通過將屬性的取值範圍進行統一，避免不同的屬性在資料分析的過程中具有不平等的地位

常用方法：

最小-最**（min-max normalization）

z-score

最小-最**

假設需要對映到目標區間為[l,r]。原來的取值範圍為[l, r]，則根據等比例對映的原理，乙個值x對映到新區間後的值v的計算方法如下：

例如，對於描述客戶的屬性「年收入（萬元）」，如果原來的取值範圍為[3，200]，新的取值範圍為[0，1]，則若某客戶的年收入為60萬元，規範化後為(60-3)/(200-3)=0.29

z-score

z-score，又稱零均值規範化（zero-mean normalization）。給定乙個屬性a，設其取值的均值為μa，標準差為σa，a的某個取值x規範化後的值v計算如下：

均值為μa和標準差為σa通過已有樣本的屬性值進行計算。規範化後的屬性a取值的均值為0，標準差為1

例如，年收入屬性的均值為82，標準差為39，則年收入60萬規範化後為-0.56

(60-82)/39

分箱離散化（等距離分箱、等頻率分箱）

等距離（equal- distance）分箱

又稱為等寬度分箱（equal-width binning），是將每個取值對映到等大小的區間的方法

等距離分箱可能導致屬於某些的取值非常多，而某些又非常少

例如：假設14個客戶的屬性「年收入」的取值按順序為：

20，40，50，58，65，80，80，82，86，90，96，105，120，200

利用等距離分箱，區間的個數為4，則區間間距為(200-20)/4=45，則4個箱的區間分別為[20，65)，[65，110)，[110，155)，[155，200]

[20，65) ： 20，40，50，58

[65，110)： 65，80，80，82，86，90，96，105

[110，155): 120

[155，200]: 200

等頻率（equal-frequency）分箱

又稱等深度分箱（equal-depth binning）。它將每個取值對映到乙個區間，每個區間內包含的取值個數大致相同

例如：假設14個客戶的屬性「年收入」的取值按順序為：

20，40，50，58，65，80，80，82，86，90，96，105，120，200

利用等頻率分箱，每箱3個值，則4個箱分別為[20，40，50]，[58，65，80，80]，[82，86，90]，[96，105，120，200]

基於熵的離散化

分箱離散化是一種無監督離散化方法

基於熵的離散化方法是常用的有監督的離散化方法

給定乙個資料集d及分類屬性的取值，即類別集合c=，資料集d的資訊熵entropy(d)的計算公式

其中p(ci)=count(ci)/|d|，count(ci)表示類別ci在d**現的次數，|d|代表d中的資料行數，即物件個數。資訊熵的取值越小，類別分布越純，反之越不純

離散化方法chimerge

如果基於熵的方法可以看作是自頂向下的**方法，則chimerge則屬於自底向上的合併方法

chimerge是從每個值都是乙個小區間開始，不斷合併相鄰區間成為大的區間，它是基於統計量卡方檢驗實現的

k為類別的個數

處理資料的缺失、噪音資料的處理以及資料不一致的識別和處理

處理資料的缺失：

如果資料集含有分類屬性，一種簡單的填補缺失值的方法為

對於數值屬性：將屬於同一類的物件的該屬性值的均值賦予此缺失值

對於離散屬性或定性屬性，用眾數代替均值

更複雜的方法，可以將其轉換為分類問題或數值**問題

噪音資料的處理

一類是識別出噪音，將其去除：孤立點（離群點、outliers）的識別屬於第一類方法，上一章中介紹聚類演算法dbscan時提到過，最終不屬於任乙個簇的點可以看作噪音。

異常點（ anomaly）

一類是利用其它非噪音資料降低噪音的影響，起到平滑（smoothing）的作用: 1) 分箱（binning）方法可以用於平滑噪音。例如，將年收入的缺失值填補之後，將其取值利用分箱法平滑噪音; 2) 線性回歸

什麼是特徵？

資料集中的屬性便是特徵。

比如身高、體重、興趣、專業、年級、成績等等

為什麼要進行特徵提取或特徵選擇

在現實生活中，乙個物件往往具有很多屬性（以下稱為特徵），這些特徵大致可以被分成三種主要的型別：

相關特徵：對於學習任務（例如分類問題）有幫助，可以提公升學習演算法的效果；

無關特徵：對於演算法沒有任何幫助，不會給演算法的效果帶來任何提公升。

冗餘特徵：不會對我們的演算法帶來新的資訊，或者這種特徵的資訊可以由其他的特徵推斷出

比如：平均成績可以用總成績除以課程數

特徵提取與特徵選擇

特徵選擇：從原始特徵資料集中選擇出子集，是一種包含的關係，沒有更改原始的特徵空間。

特徵提取：主要是通過屬性間的關係，如組合不同的屬性得到新的屬性。

兩者的目的

降維，即減少屬性(特徵)的數量

降低學習任務的難度

提公升模型的效率

商務智慧型大總結1 商務智慧型概念及過程

商務智慧型 business intelligence 概念 1996年gartner group 的howard dresner提出由資料倉儲或資料集市查詢報表資料分析資料探勘資料備份和恢復等部分組成的以輔助企業決策為目的一類技術及其應用。知識發現過程 7個步驟如下 1 資料清理消除...

資料預處理總結1

使資料服從標準正態分佈，均值為0，方差為1。做資料探勘，pandas和numpy庫肯定是要引入的，這裡就省略了。from sklearn.preprocessing import standardscaler import warnings warnings.filterwarnings ignor...

資料預處理方法總結

資料是什麼？資料就是一組物件及其屬性的集合，其中屬性定義為物件的特徵或性質。真實資料在應用前基本都有經過預處理，以便在機器學習演算法中使用。本次資料預處理方法的總結是基於推薦系統設計進行展開的，其中包括相似度的度量方法抽樣以及降維技術這三個尤為重要的問題。d x y k 1 n xk yk 2 x...

商務智慧型大總結5 資料預處理

商務智慧型大總結1 商務智慧型概念及過程

資料預處理總結1

資料預處理方法總結

相關推薦