python jieba分詞的安裝和使用

2021-07-25 22:45:34 字數 2117 閱讀 2861

seg_list = jieba.cut(「我來到北京清華大學」, cut_all=true)

print (「full mode:」, 「/ 「.join(seg_list) )# 全模式

seg_list = jieba.cut(「我來到北京清華大學」, cut_all=false)

print (「default mode:」, 「/ 「.join(seg_list) )# 精確模式

seg_list = jieba.cut(「他來到了網易杭研大廈」) # 預設是精確模式

print (「, 「.join(seg_list))

seg_list = jieba.cut_for_search(「小搜尋明碩士畢業於中國科學院計算所,後在日本京都大學深造」) # 搜尋引擎模式

print (「, 「.join(seg_list))

output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈 (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)

結巴分詞的詞性表:

ag 形語素 形容詞性語素。形容詞**為 a,語素**g前面置以a。

a 形容詞 取英語形容詞 adjective的第1個字母。

ad 副形詞 直接作狀語的形容詞。形容詞** a和副詞**d並在一起。

an 名形詞 具有名詞功能的形容詞。形容詞** a和名詞**n並在一起。

b 區別詞 取漢字「別」的聲母。

c 連詞 取英語連詞 conjunction的第1個字母。

dg 副語素 副詞性語素。副詞**為 d,語素**g前面置以d。

d 副詞 取 adverb的第2個字母,因其第1個字母已用於形容詞。

e 嘆詞 取英語嘆詞 exclamation的第1個字母。

f 方位詞 取漢字「方」

g 語素 絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。

h 前接成分 取英語 head的第1個字母。

i 成語 取英語成語 idiom的第1個字母。

j 簡稱略語 取漢字「簡」的聲母。

k 後接成分

l 習用語 習用語尚未成為成語,有點「臨時性」,取「臨」的聲母。

m 數詞 取英語 numeral的第3個字母,n,u已有他用。

ng 名語素 名詞性語素。名詞**為 n,語素**g前面置以n。

n 名詞 取英語名詞 noun的第1個字母。

nr 人名 名詞** n和「人(ren)」的聲母並在一起。

ns 地名 名詞** n和處所詞**s並在一起。

nt 機構團體 「團」的聲母為 t,名詞**n和t並在一起。

nz 其他專名 「專」的聲母的第 1個字母為z,名詞**n和z並在一起。

o 擬聲詞 取英語擬聲詞 onomatopoeia的第1個字母。

p 介詞 取英語介詞 prepositional的第1個字母。

q 量詞 取英語 quantity的第1個字母。

r 代詞 取英語代詞 pronoun的第2個字母,因p已用於介詞。

s 處所詞 取英語 space的第1個字母。

tg 時語素 時間詞性語素。時間詞**為 t,在語素的**g前面置以t。

t 時間詞 取英語 time的第1個字母。

u 助詞 取英語助詞 auxiliary

vg 動語素 動詞性語素。動詞**為 v。在語素的**g前面置以v。

v 動詞 取英語動詞 verb的第乙個字母。

vd 副動詞 直接作狀語的動詞。動詞和副詞的**並在一起。

vn 名動詞 指具有名詞功能的動詞。動詞和名詞的**並在一起。

w 標點符號

x 非語素字 非語素字只是乙個符號,字母 x通常用於代表未知數、符號。

y 語氣詞 取漢字「語」的聲母。

z 狀態詞 取漢字「狀」的聲母的前乙個字母。

un 未知詞 不可識別詞及使用者自定義詞組。取英文unkonwn首兩個字母。(非北大標準,csw分詞中定義)

以上是python版結巴分詞的簡單實用,分詞後,統計詞頻,然後應用到vsm模型當中。後續跟進中。。。。

Python jieba分詞常用方法

支援3中分詞模式 1.全模式 把句子中的所有可以成詞的詞語都掃瞄出來,使用方法 jieba.cut 字串 cut all true,hmm false 2.精確模式 試圖將文字最精確的分開,適合於做文字分析。使用方法 jieba.cut 字串 cut all false,hmm true 3.搜尋引...

python jieba分詞 詞性標註

進行詞性標註 檔案讀取寫入 做實驗室的乙個專案,暫時要做的內容 對文字資料作摘要 8 首先觀察文字資料,我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...

python jieba分詞庫的使用

測試環境 py3 win10 import jieba str test 有很多人擔心,美國一聲令下,會禁止所有的開源軟體被中國使用,這樣的擔憂是不必要的。返回迭代器 c1 jieba.cut str test c2 jieba.cut str test,cut all true c3 jieba....