jieba 漢字分詞特徵資料抽取

2021-09-07 20:54:32 字數 1267 閱讀 6094

在文字特徵值抽取過程中,將用到jieba分詞

特點支援三種分詞模式:

精確模式,試圖將句子最精確地切開,適合文字分析;

全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義。

搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。 支援繁體分詞

支援自定義詞典

mit 授權協議

安裝方法

pip install jieba

官網在這裡插入**片

demo

from sklearn.feature_extraction import dictvectorizer`在這裡插入**片`

from sklearn.feature_extraction.text import countvectorizer

import jieba

def cutword():

con1 = jieba.cut("人從來不是一成不變的,生活會追著你,一而再的脫胎換骨,只要願意,你永遠有機會,成為不斷前行的人,最終活成自己喜歡的模樣。")

con3 = jieba.cut("朋友是生命的叢林,是心靈歇腳的驛站,是收藏心事的寓所,是儲蓄感情的行囊,不管人生路上幾多風雨,朋友如傘,伴你一路晴空!願你的天空更藍、人生最美!")

# 轉換成列表

content1 = list(con1)

content2 = list(con2)

content3 = list(con3)

# 把列表轉換成字串

c1 = ' '.join(content1)

c2 = ' '.join(content2)

c3 = ' '.join(content3)

return c1,c2,c3

def hanzivec():

"""中文特徵值化

:return: none

"""c1, c2, c3 = cutword()

print(c1,c2,c3)

cv = countvectorizer()

data = cv.fit_transform([c1,c2,c3])

print(cv.get_feature_names())

print(data.toarray())

return none

if __name__ == "__main__":

hanzivec()

jieba簡易教程 分詞 詞性標註 關鍵詞抽取

jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.支援三種分詞模式 預設是精確模式 支援繁體分詞 支援自定義詞典 mi...

資料抽取oracle 跟我學 特徵抽取演算法與應用

如果您對資料探勘和資料統計分析感興趣,又對python和r等語言不熟悉,那您可以參考本文的 特徵抽取演算法 示例,在oracle資料庫或者資料倉儲中,利用sql來實現資料探勘和資料統計分析演算法。在資料探勘的過程中,過多的資訊會減低挖掘的有效性。一些資料屬性對於模型的建立和測試並沒有意義而且這些屬性...

人工智慧(文字特徵資料抽取)

sklearn.feature extraction.text.countverctorizer from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import cou...