《百面機器學習》第一章特徵工程筆記（簡）

對數值型別的特徵做歸一化，最終將特徵的取值都統一到大致相等的數值區間內。

優點：可將所有特徵消除量綱。

避免結果傾向於數值差別較大的特徵。

常見的方法有：

線性函式歸一化

零均值歸一化

適用於：邏輯回歸、svm、神經網路

不適用於：決策樹

主要指的非數值型的離散特徵，如性別（男、女）。

常見的處理方法：

序號編碼：處理具有大小關係的資料。如：高、中、低，對映為3、2、1。

獨熱編碼（one-hot）：處理類別之間無大小關係的離散類別資料。

1）使用係數向量來節省空間

2）配合特徵選擇降低維度

二進位制編碼：兩步走先賦值為id，再將id二進位製化。（相較於one-hot節省空間）

為了提高複雜關係的擬合能力，通常將一階離散特徵兩兩組合，構成高階特徵。

如：

但是對於id類的特徵，優於其數量十分龐大，不適用

特徵的組合，如果是簡單的兩兩組合，會產生引數過多、過擬合的問題。並且並不是所有的特徵都是有意義的。

所以我們可以借助決策樹的方法，來進行特徵的選擇與組合。

文字的表示是nlp中的乙個基礎性的工作與技術，通常採用的方法有如下幾個：

詞袋模型

tf-idf值

word2vec

lda

在抽取高層的語義特徵時，採用了cnn，比起dnn和rnn的優勢在於：

參數量少

訓練速度快

降低了過擬合風險. .

其有兩種模式：cbow和skip-gram

同時每種模式下都有兩種訓練技巧：層序softmax和負取樣

從模型角度入手：

簡化模型

增加懲罰項

整合學習

dropout

從資料角度入手：

做資料的旋轉、平移等操作

對影象增加雜訊

改變影象的亮度、清晰度等

gan

百面機器學習第一章特徵工程

2 類別型特徵 3 高維組合特徵的處理 4 組合特徵 5 文字表示模型 6 word2vec 7 影象資料不足時的處理方法為了消除資料特徵之間的量綱影響，對特徵進行歸一化處理，使不同指標之間具有可比性。常用的歸一化方法線性函式歸一化，xno rm x xmi nxma x xm in x fra...

第一章特徵工程

前言一什麼是特徵工程？二為什麼執行特徵工程？三特徵提取三特徵選擇總結顧名思義，特徵工程就是從資料中對特徵進行工程化。特徵工程就是將原資料轉換為能更好的代表模型潛在問題的特徵的過程，從而提高了對未知資料的模型準確性。在機器學習中，任何建模技術想要獲得滿意的結果都需要良好的資料特徵。特徵...

百面機器學習筆記特徵工程

特徵工程筆記為了消除資料特徵之間的量綱影響，我們需要對特徵進行歸一化處理，使得不同指標之間具有可比性。特徵歸一化 normalization 使各指標處於同一數值量級，以便進行分析。1 線性函式歸一化 min max scaling 它對原始資料進行線性變換，使結果對映到 0,1 的範圍，實現對原...

《百面機器學習》第一章 特徵工程 筆記（簡）

百面機器學習第一章 特徵工程

第一章 特徵工程

百面機器學習筆記 特徵工程

相關推薦

《百面機器學習》第一章特徵工程筆記（簡）

百面機器學習第一章特徵工程

第一章特徵工程

百面機器學習筆記特徵工程