python jieba分詞的安裝和使用

seg_list = jieba.cut(「我來到北京清華大學」, cut_all=true)

print (「full mode:」, 「/ 「.join(seg_list) )# 全模式

seg_list = jieba.cut(「我來到北京清華大學」, cut_all=false)

print (「default mode:」, 「/ 「.join(seg_list) )# 精確模式

seg_list = jieba.cut(「他來到了網易杭研大廈」) # 預設是精確模式

print (「, 「.join(seg_list))

seg_list = jieba.cut_for_search(「小搜尋明碩士畢業於中國科學院計算所，後在日本京都大學深造」) # 搜尋引擎模式

print (「, 「.join(seg_list))

output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈 (此處，「杭研」並沒有在詞典中，但是也被viterbi演算法識別出來了)

結巴分詞的詞性表：

ag 形語素形容詞性語素。形容詞**為 a，語素**ｇ前面置以a。

a 形容詞取英語形容詞 adjective的第1個字母。

ad 副形詞直接作狀語的形容詞。形容詞** a和副詞**d並在一起。

an 名形詞具有名詞功能的形容詞。形容詞** a和名詞**n並在一起。

b 區別詞取漢字「別」的聲母。

c 連詞取英語連詞 conjunction的第1個字母。

dg 副語素副詞性語素。副詞**為 d，語素**ｇ前面置以d。

d 副詞取 adverb的第2個字母，因其第1個字母已用於形容詞。

e 嘆詞取英語嘆詞 exclamation的第1個字母。

f 方位詞取漢字「方」

g 語素絕大多數語素都能作為合成詞的「詞根」，取漢字「根」的聲母。

h 前接成分取英語 head的第1個字母。

i 成語取英語成語 idiom的第1個字母。

j 簡稱略語取漢字「簡」的聲母。

k 後接成分

l 習用語習用語尚未成為成語，有點「臨時性」，取「臨」的聲母。

m 數詞取英語 numeral的第3個字母，n，u已有他用。

ng 名語素名詞性語素。名詞**為 n，語素**ｇ前面置以n。

n 名詞取英語名詞 noun的第1個字母。

nr 人名名詞** n和「人(ren)」的聲母並在一起。

ns 地名名詞** n和處所詞**s並在一起。

nt 機構團體「團」的聲母為 t，名詞**n和t並在一起。

nz 其他專名「專」的聲母的第 1個字母為z，名詞**n和z並在一起。

o 擬聲詞取英語擬聲詞 onomatopoeia的第1個字母。

p 介詞取英語介詞 prepositional的第1個字母。

q 量詞取英語 quantity的第1個字母。

r 代詞取英語代詞 pronoun的第2個字母,因p已用於介詞。

s 處所詞取英語 space的第1個字母。

tg 時語素時間詞性語素。時間詞**為 t,在語素的**g前面置以t。

t 時間詞取英語 time的第1個字母。

u 助詞取英語助詞 auxiliary

vg 動語素動詞性語素。動詞**為 v。在語素的**g前面置以v。

v 動詞取英語動詞 verb的第乙個字母。

vd 副動詞直接作狀語的動詞。動詞和副詞的**並在一起。

vn 名動詞指具有名詞功能的動詞。動詞和名詞的**並在一起。

w 標點符號

x 非語素字非語素字只是乙個符號，字母 x通常用於代表未知數、符號。

y 語氣詞取漢字「語」的聲母。

z 狀態詞取漢字「狀」的聲母的前乙個字母。

un 未知詞不可識別詞及使用者自定義詞組。取英文unkonwn首兩個字母。(非北大標準，csw分詞中定義)

以上是python版結巴分詞的簡單實用，分詞後，統計詞頻，然後應用到vsm模型當中。後續跟進中。。。。

Python jieba分詞常用方法

支援3中分詞模式 1.全模式把句子中的所有可以成詞的詞語都掃瞄出來，使用方法 jieba.cut 字串 cut all true,hmm false 2.精確模式試圖將文字最精確的分開，適合於做文字分析。使用方法 jieba.cut 字串 cut all false,hmm true 3.搜尋引...

python jieba分詞詞性標註

進行詞性標註檔案讀取寫入做實驗室的乙個專案，暫時要做的內容對文字資料作摘要 8 首先觀察文字資料，我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...

python jieba分詞庫的使用

測試環境 py3 win10 import jieba str test 有很多人擔心，美國一聲令下，會禁止所有的開源軟體被中國使用,這樣的擔憂是不必要的。返回迭代器 c1 jieba.cut str test c2 jieba.cut str test,cut all true c3 jieba....

python jieba分詞的安裝和使用

Python jieba分詞常用方法

python jieba分詞 詞性標註

python jieba分詞庫的使用

相關推薦

python jieba分詞詞性標註