高基數特徵 類別特徵常用的處理方式

2021-10-21 03:40:24 字數 501 閱讀 2815

**,特徵處理方式

(平均數編碼:針對高基數定性特徵(類別特徵)的資料預處理

類別型特徵:都是字串,都在固定幾個類中選擇,有限的類別,

如何處理:

1.序號編碼,比如,成績,優秀》良》合格》不合格,分別賦值4,3,2,1

2/ 獨熱編碼,互相之間沒有順序,比如顏色,血型

那麼,就做成矩陣的,有的就賦值1,沒有就0,從1維變成4維矩陣

a b ab o

10 0 0

0 1 0 0

0 0 1 0

0 0 0 1

變成稀疏矩陣,就會占用大量的空間,如何解決

1/使用稀疏向量的方式來儲存特徵,就會節省很多空間,使用現成的函式能夠

2/降維,pca,降低維度,

三/二進位制編碼

血型,a b ab o,分別給他們編個號分別1 2 3 4,使用二進位制方法,分別表示1=001 2=010 3=011 4=100,比獨熱編碼少了一維,當資料量大的時候可以節省很多空間

特徵工程之類別特徵 處理方法介紹

當類別特徵仍保持原始形式時,其取值來自所有可能取值構成的集合而不是乙個數字,故不能作為輸入。當各個取值之間是沒有順序關係的並列關係,這樣的類別特徵稱為 名義 nominal 變數。相反,那些存在順序關係的 比如評級,評級5的會好於評級1的 則被稱為 有序 ordinal 變數。將類別特徵表示為數字形...

特徵工程 歸一化 類別處理

二 類別型特徵 對於乙個機器學習問題,資料和特徵往往決定了結果的上線,而模型 演算法的選擇及優化則是在逐步接近這個上限。特徵工程,就是對原始資料進行一系列工程處理,將其提煉為特徵,做為輸入供演算法和模型使用。特徵工程的目的是去除原始資料中的雜質和冗餘,設計更高效的特徵以刻畫求解的問題與 模型之間的關...

邏輯回歸處理非線性特徵,特徵離散化以及高維稀疏特徵

我們都知道邏輯回歸是個線性分類器,它的分類器形式為 f x 1 x1 2x2 nx nf x theta 1x 1 theta 2x 2 theta nx n f x 1 x1 2 x2 n xn 所說的線性是關於引數 theta 的線性,雖然它會經過乙個sigmoid函式的對映,加入對映之後,會演...