jieba分詞快速入門 自然語言處理

2021-08-07 18:23:27 字數 2580 閱讀 8310

"結巴"中文分詞:做最好的python中文分詞元件 "jieba" 

支援繁體分詞

支援自定義詞典

**示例( 分詞 )

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=true)

print

"full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print

"default mode:", "/ ".join(seg_list) #精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") #預設是精確模式

print

", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") #搜尋引擎模式

print

", ".join(seg_list)

output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈    (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)

【搜尋引擎模式】: 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

"通過使用者自定義詞典來增強歧義糾錯能力" --- 

/jieba/blob

/master/test

/extract_tags.py

例子: /jieba/blob/master/test/parallel/test_file.py

實驗結果:在4核3.4ghz linux機器上,對金庸全集進行精確分詞,獲得了1mb/s的速度,是單程序版的3.3倍。

result = jieba.tokenize(u'永和服裝飾品****')
for tk in

result:

print

"word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start:

0end:

2word 服裝                start:

2end:

4word 飾品                start:

4end:

6word ****            start:

6end:

10

result = jieba.tokenize(u'永和服裝飾品****',mode='search')
for tk in

result:

print

"word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start:

0end:

2word 服裝                start:

2end:

4word 飾品                start:

4end:

6word 有限                start:

6end:

8word 公司                start:

8end:

10word ****            start:

6end:

10

占用記憶體較小的詞典檔案 /jieba/raw/master/extra_dict/dict.txt.small

支援繁體分詞更好的詞典檔案 /jieba/raw/master/extra_dict/dict.txt.big

jieba採用延遲載入,"import jieba"不會立即觸發詞典的載入,一旦有必要才開始載入詞典構建trie。如果你想手工初始jieba,也可以手動初始化。

import jieba

jieba.initialize() #手動初始化(可選)

在0.28之前的版本是不能指定主詞典的路徑的,有了延遲載入機制後,你可以改變主詞典的路徑:

jieba.set_dictionary('data/dict.txt.big')
例子: /jieba/blob/master/test/test_change_dictpath.py

1)模型的資料是如何生成的?/jieba/issues/7

2)這個庫的授權是? /jieba/issues/2

更多問題:/jieba/issues?sort=updated&state=closed

NLP自然語言 jieba分詞庫

jieba 結巴 是乙個強大的分詞庫,完美支援中文分詞,本文對其基本用法做乙個簡要總結。1.安裝jieba pip install jieba 2.簡單用法 結巴分詞分為三種模式 精確模式 預設 全模式和搜尋引擎模式,下面對這三種模式分別舉例介紹 1 精確模式 import jieba s u 我想...

自然語言中最好中文分詞 jieba

美圖欣賞 一.jieba介紹 結巴 中文分詞 做最好的python中文分詞元件 jieba 中文為 to stutter 中文文字分割 內建為最好的python中文單詞分割模組。二.jieba特徵支援典型分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的短語都...

自然語言處理 結巴分詞

jieba分詞的三種模式的對比 import jieba text 在精確模式的基礎上對長詞再次劃分提高召回率 text list jieba.cut text,cut all true print 全模式 print join text list print 精確模式 text list jieb...