機器學習之字典特徵提取

2022-08-12 20:51:09 字數 900 閱讀 7283

使用第三方庫sklearn.feature_extraction:

1

#字典特徵提取

2from sklearn.feature_extraction import

dictvectorizer3#

字典特徵提取

4def

dict_demo():

5 data = [, , ]6#

1例項化轉換器物件(預設sparse=true返回值為稀疏矩陣)

7 transfer = dictvectorizer(sparse=false)8#

2呼叫函式特徵提取fit_transform()

9 data_new =transfer.fit_transform(data)

10print("

data_new:\n

",data_new)

11if

__name__ == '

__main__':

12 dict_demo()

結果截圖:

圖①:

例項化轉換器物件dictvectorizer()時,引數預設為:sparse=true時:

結果截圖:

圖②:

結果圖②中的元組代表的是圖①中的非0點的位置,當sparse=true時,大大節省了記憶體(沒有存放值為0的點)

當我們例項化物件時引數sparse若不設定為true,呢麼也可以通過data.toarray()函式將圖②輸出格式變為圖①矩陣格式輸出。

機器學習 特徵工程 字典特徵提取

將原始資料轉換為更好地代表 模型的潛在問題的特徵的過程,從而提高了對未知資料的 準確性,直接影響 結果。對文字等特徵進行特徵值化,為了計算機更好地理解資料 sklearn.feature extraction 對字典資料進行特徵值化 字典資料抽取 就是把字典中一些類別資料,分別轉換成特徵,數值型別不...

特徵提取 機器學習

特徵提取簡介 sift原理 sift原理 sift原理 1.k近鄰法,簡單來說就是哪個點離得近就把例項點歸到哪一類中。特殊情況是最近鄰演算法 1近鄰演算法。演算法主要包括演算法的模型,距離度量 k值的選擇和演算法的具體實現。其中演算法的實現主要有兩種形式 線性掃瞄法和構建資料索引。改善演算法最好的當...

機器學習 特徵提取

from sklearn.feature extraction import dictvectorizer import numpy as np 定義一組字典列表,用來表示多個資料樣本 d1 例項化 dict dictvectorizer data dict fit transform d1 轉化後...