機器學習之文字特徵抽取

import pandas as pd  
import numpy as np
from sklearn.feature_extraction.text import countvectorizer
defwork()
:#連線mysql 
con = pymysql.connect(host=
"127.0.0.1"
,user=
"root"
,password=
"密碼"
,db=
"資料庫"
)#查詢
df = pd.read_sql(
"select * from 表"
,con)
# 取出name欄位的所有資料 轉換成numpy型別 再轉成list
content = np.array(df[
'name'])
.tolist(
) list_a=
for i in content:
#遍歷資料 將每條內容用jieba分詞
con =
' '.join(jieba.lcut(i)
)#將分詞後的資料存進列表
print
(list_a)
# 初始化 countvectorizer stop_words 新增停用詞 
cv = countvectorizer(stop_words=
['北京'
,'兼職'
,'方向'
,'安卓'
,'工程師'
,'架構師'])
# 處理資料來自jieba分詞後的內容
data = cv.fit_transform(list_a)
#抽取特徵類別 並對內容去重
print
(cv.get_feature_names())
#檢視抽取結果
print
(data.toarray())
work(
)

每一排的7個數字對應 7個關鍵字。拿第一排舉例，第四個是1，這個1代表關鍵字的python關鍵字出現1次

機器學習之文字特徵抽取

from sklearn.feature extraction.text import countvectorizer import jieba li 想變成天上忽明忽暗的雲朵想吃掉世上最美味的一切一想到你呀，我這張臉，就泛起微笑愛你，就像愛生命當我跨過沉淪的一切，你是我的旗幟利用jieb...

機器學習特徵工程字典特徵和文字特徵抽取

mysql 效能瓶頸，讀取速度 pandas 讀取工具 numpy釋放gil cpython 協程 sklearn 特徵值目標值重複值不需要進行去重缺失值特殊處理將原始資料轉換為更好代表模型的潛在問題的特徵的過程，從而提高對未知資料的準確性 classification 分類 reg...

文字特徵抽取

例項文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...

機器學習之文字特徵抽取

機器學習之文字特徵抽取

機器學習 特徵工程字典特徵和文字特徵抽取

文字特徵抽取

相關推薦

機器學習特徵工程字典特徵和文字特徵抽取