機器學習之文字特徵抽取

2021-09-21 07:08:47 字數 1180 閱讀 2220

import pandas as pd  

import numpy as np

from sklearn.feature_extraction.text import countvectorizer

defwork()

:#連線mysql

con = pymysql.connect(host=

"127.0.0.1"

,user=

"root"

,password=

"密碼"

,db=

"資料庫"

)#查詢

df = pd.read_sql(

"select * from 表"

,con)

# 取出name欄位的所有資料 轉換成numpy型別 再轉成list

content = np.array(df[

'name'])

.tolist(

) list_a=

for i in content:

#遍歷資料 將每條內容用jieba分詞

con =

' '.join(jieba.lcut(i)

)#將分詞後的資料存進列表

print

(list_a)

# 初始化 countvectorizer stop_words 新增停用詞

cv = countvectorizer(stop_words=

['北京'

,'兼職'

,'方向'

,'安卓'

,'工程師'

,'架構師'])

# 處理資料來自jieba分詞後的內容

data = cv.fit_transform(list_a)

#抽取特徵類別 並對內容去重

print

(cv.get_feature_names())

#檢視抽取結果

print

(data.toarray())

work(

)

每一排的7個數字 對應 7個關鍵字。拿第一排舉例,第四個是1,這個1代表關鍵字的python關鍵字出現1次

機器學習之文字特徵抽取

from sklearn.feature extraction.text import countvectorizer import jieba li 想變成天上忽明忽暗的雲朵 想吃掉世上最美味的一切 一想到你呀,我這張臉,就泛起微笑 愛你,就像愛生命 當我跨過沉淪的一切,你是我的旗幟 利用jieb...

機器學習 特徵工程字典特徵和文字特徵抽取

mysql 效能瓶頸,讀取速度 pandas 讀取工具 numpy釋放gil cpython 協程 sklearn 特徵值 目標值 重複值 不需要進行去重 缺失值 特殊處理 將原始資料轉換為更好代表 模型的潛在問題的特徵的過程,從而提高對未知資料的 準確性 classification 分類 reg...

文字特徵抽取

例項 文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...