機器學習常見的資料預處理

原始資料存在幾個問題：不一致；重複；含雜訊；緯度高。

盡可能賦予屬性名和屬性值明確的含義；

去除唯一屬性；

去除重複性；

合理選擇關聯字段；

刪除法，根據資料處理的不同角度，刪除法可分為以下4種：

插補法：在條件允許的情況下，找到缺失值的替代值進行插補，盡可能還原真實資料是更好的方法。常見的方法有均值插補、回歸插補、二階插補、熱平台、冷平台等單一變數插補。

雜訊是乙個測量變數中的隨機錯誤和偏差，包括錯誤值或偏離期望的孤立點值。

在進行雜訊檢查後，通常採用分箱、聚類、回歸、計算機檢查和人工檢查結合等方法「光滑」資料，去掉資料中的雜訊。

分箱：分箱方法是一種簡單常用的預處理方法，通過考察相鄰資料來確定最終值。所謂「分箱」，實際上就是按照屬性值劃分的子區間，如果乙個屬性值處於某個子區間範圍內，就稱把該屬性值放進這個子區間所代表的「箱子」內。把待處理的資料（某列屬性值）按照一定的規則放進一些箱子中，考察每乙個箱子中的資料，採用某種方法分別對各個箱子中的資料進行處理。在採用分箱技術時，需要確定的兩個主要問題就是：如何分箱以及如何對每個箱子中的資料進行平滑處理。

設定權重（箱子深度）為4，分箱後箱1：800 1000 1200 1500 箱2：1500 1800 2000 2300 箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

設定區間範圍（箱子寬度）為1000元人民幣，分箱後箱1：800 1000 1200 1500 1500 1800 箱2：2000 2300 2500 2800 3000 箱3：3500 4000 4500

箱4：4800 5000

如將客戶收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組，分箱後箱1：800 箱2：1000 1200 1500 1500 1800 2000 箱3：2300 2500 2800 3000 箱4：3500 4000

箱5：4500 4800 5000

2.2.2 資料平滑方法

資料變換策略主要包括以下幾種：

資料歸約通常用維歸約、數值歸約方法實現。維歸約指通過減少屬性的方式壓縮資料量，通過移除不相關的屬性，可以提高模型效率。常見的維歸約方法有：分類樹、隨機森林通過對分類效果的影響大小篩選屬性；小波變換、主成分分析通過把原資料變換或投影到較小的空間來降低維數。

機器學習之常見的資料預處理

機器學習之常見的資料預處理原始資料存在的幾個問題不一致重複含雜訊維度高。1.1 資料探勘中使用的資料的原則盡可能賦予屬性名和屬性值明確的含義去除惟一屬性去除重複性合理選擇關聯字段。1.2 常見的資料預處理方法資料清洗資料清洗的目的不只是要消除錯誤冗餘和資料噪音，還要能將按不同...

機器學習資料預處理

均值為0，標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換，變換到 0,1 區間也可以是其他固定最小最大值的區間 from s...

機器學習資料預處理

1 連續資料特徵離散化的方法由於lr 中模型表達能力有限，可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散取值範圍均勻劃分成n 等分，每份的間距相等。2 等頻離散均勻分為n 等分，每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法統計樣本的實際觀測值與理論判斷值之間的...

機器學習 常見的資料預處理

機器學習之常見的資料預處理

機器學習 資料預處理

機器學習 資料預處理

相關推薦

機器學習常見的資料預處理

機器學習資料預處理

機器學習資料預處理