《百面機器學習》第一章 特徵工程 筆記(簡)

2021-09-26 09:10:48 字數 1144 閱讀 5838

對數值型別的特徵做歸一化,最終將特徵的取值都統一到大致相等的數值區間內。

優點:可將所有特徵消除量綱。

避免結果傾向於數值差別較大的特徵。

常見的方法有:

線性函式歸一化

零均值歸一化

適用於:邏輯回歸、svm、神經網路

不適用於:決策樹

主要指的非數值型的離散特徵,如性別(男、女)。

常見的處理方法:

序號編碼:處理具有大小關係的資料。如:高、中、低,對映為3、2、1。

獨熱編碼(one-hot):處理類別之間無大小關係的離散類別資料。

1) 使用係數向量來節省空間

2) 配合特徵選擇降低維度

二進位制編碼:兩步走先賦值為id,再將id二進位製化。(相較於one-hot節省空間)

為了提高複雜關係的擬合能力,通常將一階離散特徵兩兩組合,構成高階特徵。

如:

但是對於id類的特徵,優於其數量十分龐大,不適用

特徵的組合,如果是簡單的兩兩組合,會產生引數過多、過擬合的問題。並且並不是所有的特徵都是有意義的。

所以我們可以借助決策樹的方法,來進行特徵的選擇與組合。

文字的表示是nlp中的乙個基礎性的工作與技術,通常採用的方法有如下幾個:

詞袋模型

tf-idf值

word2vec

lda

在抽取高層的語義特徵時,採用了cnn,比起dnn和rnn的優勢在於:

參數量少

訓練速度快

降低了過擬合風險. .

其有兩種模式:cbow和skip-gram

同時每種模式下都有兩種訓練技巧:層序softmax和負取樣

從模型角度入手:

簡化模型

增加懲罰項

整合學習

dropout

從資料角度入手:

做資料的旋轉、平移等操作

對影象增加雜訊

改變影象的亮度、清晰度等

gan

百面機器學習第一章 特徵工程

2 類別型特徵 3 高維組合特徵的處理 4 組合特徵 5 文字表示模型 6 word2vec 7 影象資料不足時的處理方法 為了消除資料特徵之間的量綱影響,對特徵進行歸一化處理,使不同指標之間具有可比性。常用的歸一化方法 線性函式歸一化,xno rm x xmi nxma x xm in x fra...

第一章 特徵工程

前言 一 什麼是特徵工程?二 為什麼執行特徵工程?三 特徵提取 三 特徵選擇 總結顧名思義,特徵工程就是從資料中對特徵進行工程化。特徵工程就是將原資料轉換為能更好的代表 模型潛在問題的特徵的過程,從而提高了對未知資料的模型準確性。在機器學習中,任何建模技術想要獲得滿意的結果都需要良好的資料特徵。特徵...

百面機器學習筆記 特徵工程

特徵工程筆記 為了消除資料特徵之間的量綱影響,我們需要對特徵進行歸一化處理,使得不同指標之間具有可比性。特徵歸一化 normalization 使各指標處於同一數值量級,以便進行分析。1 線性函式歸一化 min max scaling 它對原始資料進行線性變換,使結果對映到 0,1 的範圍,實現對原...