機器學習中的資料清洗和特徵處理綜述

典型的監督學習過程

確定特徵資料

在資料**不固定，不明了的情況下，需要考慮為了達到目標，需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵，然後需要對使用資料的可用性進行評估，包括資料的獲取難度，資料的規模，資料的準確率，資料的覆蓋率等。

特徵處理過程

1，初步處理

樣本取樣 -- 當模型不能使用全部的資料來訓練時，需要對資料進行取樣，設定一定的取樣率。取樣的方法包括隨機取樣，固定比例取樣等方法。

樣本過濾 -- 主要是對樣本中的異常點檢測，以及去除作弊，spam等資料等。

2，特徵分類

在分析完特徵和標註的清洗方法之後，應對特徵進行分類，對於不同的特徵應該有不同的特徵處理方法。

根據不同的分類方法，可以將特徵分為(1)low level特徵和high level特徵。(2)穩定特徵與動態特徵。(3)二值特徵、連續特徵、列舉特徵。具體可參看原文。總的來說對於low level特徵和high level特徵可能適合不同的模型；穩定特徵與動態特徵可以針對性地設計特徵儲存和更新方式；二值特徵、連續特徵、列舉特徵則需要做特徵歸一化，離散化，預設值等處理。

3，特徵處理

特徵處理一般有：

(1)特徵歸一化，離散化，預設值

(2)特徵降維

(3)特徵選擇

文中最後用例項強調了特徵監控的重要性。

機器學習中的資料清洗和特徵處理綜述

機器學習資料清洗和特徵選擇

機器學習中資料清洗和特徵選擇總結

機器學習之資料清洗和特徵選擇

機器學習中的資料清洗和特徵處理綜述

機器學習 資料清洗和特徵選擇

機器學習中資料清洗和特徵選擇總結

機器學習之資料清洗和特徵選擇

相關推薦

機器學習資料清洗和特徵選擇