1 機器學習 特徵工程

2022-08-01 08:06:15 字數 490 閱讀 9700

為了消除資料特徵之間的量綱影響,使不同指標之間具有可比性。資料歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。

歸一化的方法主要有:(1)線性函式歸一化;

(2)零均值歸一化(標準化)。

如果對輸出結果範圍有要求,或者資料較為穩定,不存在極端的取值的清況下,可以使用線性歸一化;如果資料存在較多異常或雜訊時,可以使用標準化.

通過梯度下降法求解的模型通常是需要歸一化的,包括線性回歸/邏輯回歸/支援向量機/神經網路模型等,但是對於決策樹模型則並不適用。

類別型特徵主要是指只在有限項內取值的特徵。

常見的轉換有以下三種:

(1)序號編碼;用於處理類別間具有大小關係的資料

(2)獨熱碼;用於處理類別間不具有大小關係的特徵,在獨熱編碼下,特徵向量只有某一維取1,其他位置均取0.

(3)二進位制編碼;先用序號編碼給每乙個類別賦予乙個類別id,再用該類別id的二進位制編碼作為結果。相比獨熱碼,它的維數一般較少,節省了儲存空間。

機器學習 特徵工程

老師有多年的網際網路從業經驗,所以講解的過程中結合了很多任務業界的應用,更加的深入淺出。資料採集 資料採集前需要明確採集哪些資料,一般的思路為 哪些資料對最後的結果 有幫助?資料我們能夠採集到嗎?線上實時計算的時候獲取是否快捷?舉例1 我現在要 使用者對商品的下單情況,或者我要給使用者做商品推薦,那...

機器學習 特徵工程

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。通俗的說,就是盡可能的從原始資料中獲取更多資訊,從而使得 模型達到最佳。簡而言之,特徵工程是乙個把原始資料變成特徵的過程,這些特徵可以很好的描述資料,並且利用它們建立的模型在未知資料上表現效能可以達到最優。實驗結果取決於獲取的資料 ...

機器學習特徵工程

作用 對字典資料進行特徵值化 dictvectorizer語法 例項化了乙個物件 data dict fit transform x print dict get feature names print data return none if name main dictvec 結果 分析 使用di...