結巴中文分詞使用學習(python)

2021-07-11 23:06:57 字數 1851 閱讀 4212

精確模式(預設):試圖將句子最精確地切開,適合文字分析;

全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義;

搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。

注意jieba.cut以及jieba.cut_for_search返回的結構都是乙個可迭代的 generator,並不是乙個list列表。

示例**1

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""功能:結巴分詞測試,基本分詞功能

"""import jieba

# 分詞模式

seg = jieba.cut("這是一本關於資訊檢索的書", cut_all=true) # cut_all=true,全模式

print(u"全模式分詞: " + "/ ".join(seg))

seg = jieba.cut("這是一本關於資訊檢索的書", cut_all=false) # cut_all=false,精確模式

print(u"精確模式分詞: " + "/ ".join(seg))

seg = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式

print(", ".join(seg))

seg = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式

print(", ".join(seg))

用法jieba.load_userdict(file_name)

file_name 為檔案類物件或自定義詞典的路徑

詞典格式:乙個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略);用空格隔開,順序不可顛倒。

詞典示例

雲計算 5

李小福 2 nr

創新辦 3

ieasy_install 3 eng

好用 300

韓玉賞鑑 3 nz

八一雙鹿 3 nz

臺中凱特琳 nz

edu trust認證 2000

示例**2
#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""功能:結巴分詞測試,新增詞典

"""import jieba

# 新增自定義詞典

jieba.load_userdict("userdic.txt")

seg = jieba.cut("這是一本關於資訊檢索的書")

print

"/ ".join(seg)

if __name__ == "__main__":

pass

採用和 ictclas (nlpir)相容的標記法。

words = pseg.cut("這是一本關於資訊檢索的書")

forword, flag in

words:

print ('%s %s' % (word, flag))

備註:在anaconda python下,上述print報錯方式,原因暫時未知。

支援繁體分詞

並行分詞

返回詞語在原文的起止位置

參考文獻

官方說明:

其他:

結巴中文分詞

人工智慧領域文字分類中最基本的就是分詞,分詞中最基礎的莫過於結巴分詞。分詞,顧名思義就是把一句話劃分成若干的詞語,只不過如今我們是讓電腦自動進行分詞。結巴中文分詞支援的三種模式分別為 1.全模式 把句子中所有成詞的詞語都掃瞄出來,速度非常快,但不能消除歧義。分詞結果 jieba.cut 文字名稱,c...

結巴中文分詞安裝與使用

1 安裝 pip install jieba 2 示例 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg list 輸出 我 來到 北京 清華 清華大學 華大 ...

結巴中文分詞之PHP擴充套件

array jieba string text,bool use extract false,long extract limit 10 git clone cd phpjieba cjieba make cd phpize configure make make installextension ...