機器學習《文字特徵提取》

2021-09-24 01:29:40 字數 2187 閱讀 8854

# 本次任務

將文字特徵提取轉換成模型能用的資料<

/font>

import pandas as pd

本次資料來自json檔案

df = pd.read_json(

'wuxia.car.json'

,encoding=

'utf-8'

)# 這是取出的資料

將資料轉換成list型別

# dictvectorizer 處理資料型別是dict

from sklearn.feature_extraction import dictvectorizer

data = dv.fit_transform(listall)

檢視處理後的特徵對應的列

print

(dv.get_feature_names())

列印編碼結果 toarray把結果轉換為numpy型別

#給編碼轉成pandas二維陣列   columns給列起別名    轉成pandas方便存csv

df2 = pd.dataframe(data.toarray(),

columns=

['black'

,'bule'

,'gray'

,'green'

,'red'

,'whilt'

,'doors'

,'level'

,'a4'

,'凱美瑞'

,'君威'

,'奧拓'

,'捷達'

,'朗逸'

,'蒙迪歐'

,'邁騰'

,'速騰'

,'雅閣'

#  將level作為標籤放在最後一列

data=df2.level #取出要換位置的列名

df2=df2.drop(

'level'

,axis=1)

# 刪除要換的列名

df2.insert(18,

'level'

,data)

# 將取出的重新新增進去 18代表第18列

# 存csv

df2.to_csv(

'cars.csv'

,encoding=

'utf-8'

)# 讀csv

datas = pd.read_csv(

'cars.csv'

,encoding=

'utf-8'

)datas.drop(

'unnamed: 0'

,axis=

1,inplace=

true

)# 取出資料如下

機器學習 特徵工程和文字特徵提取

命令檢視是否可用 注意 安裝scikit learn需要numpy,pandas等庫 from sklearn.feature extraction import dictvectorizer defdictvec 對字典特徵值 return none dit dictvectorizer 例項化 ...

特徵提取 機器學習

特徵提取簡介 sift原理 sift原理 sift原理 1.k近鄰法,簡單來說就是哪個點離得近就把例項點歸到哪一類中。特殊情況是最近鄰演算法 1近鄰演算法。演算法主要包括演算法的模型,距離度量 k值的選擇和演算法的具體實現。其中演算法的實現主要有兩種形式 線性掃瞄法和構建資料索引。改善演算法最好的當...

機器學習 特徵提取

from sklearn.feature extraction import dictvectorizer import numpy as np 定義一組字典列表,用來表示多個資料樣本 d1 例項化 dict dictvectorizer data dict fit transform d1 轉化後...