特徵工程之類別特徵 處理方法介紹

2021-07-11 01:12:38 字數 770 閱讀 2562

當類別特徵仍保持原始形式時,其取值來自所有可能取值構成的集合而不是乙個數字,故不能作為輸入。

當各個取值之間是沒有順序關係的並列關係,這樣的類別特徵稱為 名義(nominal)變數。相反,那些存在順序關係的(比如評級,評級5的會好於評級1的),則被稱為 有序(ordinal)變數。

將類別特徵表示為數字形式,常可借助 1-of-k 這樣的編碼方法進行。

假設變數的取值有 k 個,如果對這些值用 1 到 k 編序,則可用長度為 k 的二元向量來表示乙個變數的值。在這樣的向量裡,該取值所對應的序號所在的元素為1,其他元素均為0.

>>>

labels = [

'a+'

, 'a-'

, 'b+'

, 'b-'

, 'c+'

,'c-'

, 'd+'

, 'd-']

>>>

binary_code = [

0]*len(labels)

>>>

binary_code[labels.index(

'b+'

)] = 1

>>>

binary_code[

0.,

0.,

1.,

0.,

0.,

0.,

0.,

0.]  

# 根據 類別 b+ 獲得其對應的二元向量編碼

# [ 0., 0., 1., 0., 0., 0., 0., 0.]

特徵工程之特徵預處理

概念 特徵預處理是什麼呢?特徵預處理是通過統計方法 數學方法 將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。下面是幾種資料預處理的方法 1 數值型資料 標準縮放 1 歸一化2 標準化 2 類別型資料 one hot編碼 3 時間類別 時間的劃分 下面介紹歸一化和標準化歸一化 歸一化 ...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...