處理分型別特徵

2021-09-29 21:36:10 字數 371 閱讀 3483

類別型特徵的原始資料一般都是字串形式,只有決策樹等少數模型可以處理字串的輸入,對於傳統的模型來說,類別型特徵必須經過處理轉成數值型特徵。

一、序號編碼:用於處理類別間具有大小關係的資料。

二、獨熱編碼:稀疏向量

三、二進位制編碼:第一步:給每個類別賦予id,第二步:對id進行二進位制編碼。優點:維數少,節省空間。

from sklearn.feature_extraction import dictvectorizer one hot_encoder = dictvectorizer()

x = [,,

]onehot_encoder.fit_transform(x).toarray())

特徵工程 特徵分類及不同類特徵的處理方式

對特徵進行分類,對於不同的特徵應該有不同的處理方法。根據不同的分類方法,可以將特徵分為 例如文字特徵中的詞向量特徵,影象特徵中的畫素點,使用者id,商品id等。low level特徵一般維度比較高,不能用過於複雜的模型。例如人工打分,模型打分等特徵,可以用於較複雜的非線性模型。low level 比...

特徵處理 數值特徵處理

專案工作流程 標準化標籤,將標籤值統一轉換成range 標籤值個數 1 範圍內 簡單來說 labelencoder 是對不連續的數字或者文字進行編號 one hot的基本思想 將離散型特徵的每一種取值都看成一種狀態,若你的這一特徵中有n個不相同的取值,那麼我們就可以將該特徵抽象成n種不同的狀態,on...

資料預處理1 分類特徵編碼

背景 we don t talk anymore 很多時候,在我們拿到的資料集裡,特徵不都是連續的值,而是由某些離散化取值的資料組成。例如,性別特徵可以具有如下取值 male female 天氣特徵有如下取值 rainy sunny snowy 這樣的特徵是無法直接被模型識別的,因此需要將這些特徵轉...