特徵工程 特徵提取

2022-06-20 11:45:15 字數 1399 閱讀 6334

特徵提取

將任意資料(如文字或影象)轉換為可用於機器學習的數字特徵

注:特徵值化是為了計算機更好的去理解資料

字典特徵提取

作用:對字典資料進行特徵值化

dictvectorizer.get_feature_names() 返回類別名稱

from sklearn.feature_extraction import dictvectorizer

def dict_demo():

"""對字典型別的資料進行特徵抽取

:return: none

"""data = [, , ]

# 1、例項化乙個轉換器類

transfer = dictvectorizer(sparse=false)

# 2、呼叫fit_transform

data = transfer.fit_transform(data)

print("返回的結果:\n", data)

# 列印特徵名字

print("特徵名字:\n", transfer.get_feature_names())

return none

文字特徵提取

作用:對文字資料進行特徵值化

countvectorizer.get_feature_names() 返回值:單詞列表

sklearn.feature_extraction.text.tfidfvectorizer

from sklearn.feature_extraction.text import countvectorizer

def text_count_demo():

"""對文字進行特徵抽取,countvetorizer

:return: none

"""data = ["life is short,i like like python", "life is too long,i dislike python"]

# 1、例項化乙個轉換器類

# transfer = countvectorizer(sparse=false) # 注意,沒有sparse這個引數

transfer = countvectorizer()

# 2、呼叫fit_transform

data = transfer.fit_transform(data)

print("文字特徵抽取的結果:\n", data.toarray())

print("返回特徵名字:\n", transfer.get_feature_names())

return none

機器學習 特徵工程 字典特徵提取

將原始資料轉換為更好地代表 模型的潛在問題的特徵的過程,從而提高了對未知資料的 準確性,直接影響 結果。對文字等特徵進行特徵值化,為了計算機更好地理解資料 sklearn.feature extraction 對字典資料進行特徵值化 字典資料抽取 就是把字典中一些類別資料,分別轉換成特徵,數值型別不...

機器學習 特徵工程之特徵提取

第二部分 特徵提取 備註 1.資料決定了機器學習的上限,而演算法只是盡可能逼近這個上限 這句話很好的闡述了資料在機器學習中的重要性。大部分直接拿過來的資料都是特徵不明顯的 沒有經過處理的或者說是存在很多無用的資料,那麼需要進行一些特徵處理,特徵的縮放等等,滿足訓練資料的要求。2.特徵工程的過程 從資...

機器學習 特徵工程和文字特徵提取

命令檢視是否可用 注意 安裝scikit learn需要numpy,pandas等庫 from sklearn.feature extraction import dictvectorizer defdictvec 對字典特徵值 return none dit dictvectorizer 例項化 ...