python的jieba分詞詞性標註

2021-09-30 13:06:35 字數 2189 閱讀 4754

在明哥的嚴厲催促下,我終於註冊了我自己的部落格,並且這是我寫的第一篇部落格,寫得不好還請大家多多指出,以幫助小弟在程式設計之路上走得更遠。

好了,廢話就不多說了,直接進入主題吧。

號稱「做最好的python中文分詞元件」的jieba分詞是python語言的乙個中文分詞包。它的特點有:

支援三種分詞模式:

◾ 精確模式,試圖將句子最精確地切開,適合文字分析;

◾ 全模式,把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,但是不能解決歧義;

◾ 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。

支援繁體分詞

支援自定義詞典

**示例( 分詞 )

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") #預設是精確模式

print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") #搜尋引擎模式

print ", ".join(seg_list)

output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈    (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)

【搜尋引擎模式】: 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

"通過使用者自定義詞典來增強歧義糾錯能力" --- 

例子: 

實驗結果:在4核3.4ghz linux機器上,對金庸全集進行精確分詞,獲得了1mb/s的速度,是單程序版的3.3倍。

result = jieba.tokenize(u'永和服裝飾品****')
for tk in result:
print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2

word 服裝                start: 2                end:4

word 飾品                start: 4                end:6

word ****            start: 6                end:10

result = jieba.tokenize(u'永和服裝飾品****',mode='search')
for tk in result:
print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2

word 服裝                start: 2                end:4

word 飾品                start: 4                end:6

word 有限                start: 6                end:8

word 公司                start: 8                end:10

word ****            start: 6                end:10



python中的jieba分詞保留給定詞彙

之前在做python的詞云作業時,希望保留一些特定的詞彙,但在網上沒有找到方法,今天在上python課的時候老師給出了解答 首先,呼叫jieba.load userdict 檔名 載入需要保留的詞彙,檔案內容是需要保留的詞彙,然後使用jieba.lcut text 即可對給定的文字進行分析,即可得到...

python 中文jieba分詞

import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後...

關於jieba分詞 Python

做詞云視覺化的時候,一般都用乙個庫叫jieba,它是用來分詞的。jieba庫在安裝時,會附帶乙個詞庫,這個詞庫中包含了日常漢語的詞語和詞性。在分詞時,jieba庫會先基於詞庫對文字進行匹配,生成文字中的漢字最有可能形成的詞。然後將這些詞組成乙個dag,用動態規劃演算法來查詢最大的概率路徑,盡可能不將...