機器學習中資料清洗和特徵選擇總結

1.預處理:理解資料及資料特徵（很重要）

2.異常樣本資料：

3.取樣：

資料不均衡問題：

1.詞袋法：統計詞頻

2.tf-idf：tf詞頻，idf逆文件頻率：表示詞在各個文件**現的概率

3.hashtf-idf：不計算詞頻，而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf的形式來解決該問題。特點：執行速度快，但是無法獲取高頻詞，有可能存在單詞碰撞問題 (hash值一樣)

4.預設值填充

5.啞編碼(onehotencoder)

6.二值化(binarizer):對於定量的資料(特徵取值連續)根據給定的閾值，將其進行轉換，如果大於閾值，那麼賦值為1;否則賦值為0

7.標準化:基於特徵屬性的資料(也就是特徵矩陣的列)，獲取均值和方差，然後將特徵值轉換至服從標準正態分佈。

8.區間縮放法（歸一化）:是指按照資料(特徵屬性，也就是列)的取值範圍特性對資料進行縮放操作，將資料縮放到給定區間上。

9.正則化:和標準化不同，正則化是基於矩陣的行進行資料處理，其目的是將矩陣的行均轉換為「單位向量」

10.降維：減小計算量，縮短訓練時間。lda\pca。pca是為了讓對映後的樣本具有更大的發散性，pca是無監督的學習演算法，lda是為了讓對映後的樣本有最好的分類效能，lda是有監督學習演算法。

標準化的目的是為了降低不同特徵的不同範圍的取值對於模型訓練的影響;比如對於同乙個特徵，不同的樣本的取值可能會相差的非常大，那麼這個時候一些異常小或者異常大的資料可能會誤導模型的正確率;另外如果資料在不同特徵上的取值範圍相差很大，那麼也有可能導致最終訓練出來的模型偏向於取值範圍大的特徵，特別是在使用梯度下降求解的演算法中;通過改變資料的分布特徵，具有以下兩個好處:1. 提高迭代求解的收斂速度;2. 提高迭代求解的精度。

歸一化對於不同特徵維度的伸縮變換的主要目的是為了使得不同維度度量之間特徵具有可比性，同時不改變原始資料的分布(相同特性的特徵轉換後，還是具有相同特性)(不改變的意思是:多個特徵之間的關係不改變)。和標準化一樣，也屬於一種無量綱化的操作方式。

正則化則是通過範數規則來約束特徵屬性，通過正則化我們可以降低資料訓練處來的模型的過擬合可能，和之前在機器學習中所講述的l1、l2正則的效果一樣。在進行正則化操作的過程中，不會改變量據的分布情況，但是會改變資料特徵之間的相關特性。

如果面試有人問標準化和歸一化的區別:標準化會改變資料的分布情況，歸一化不會，標準化的主要作用是提高迭代速度，降低不同維度之間影響權重不一致的問題。

機器學習中資料清洗和特徵選擇總結

機器學習資料清洗和特徵選擇

機器學習之資料清洗和特徵選擇

機器學習中的資料清洗和特徵處理綜述

機器學習中資料清洗和特徵選擇總結

機器學習 資料清洗和特徵選擇

機器學習之資料清洗和特徵選擇

機器學習中的資料清洗和特徵處理綜述

相關推薦

機器學習資料清洗和特徵選擇