jieba結巴分詞加入自定義詞典

2021-10-02 20:52:07 字數 1369 閱讀 9644

新增自定義詞典

動態調整詞典

參考jieba官方文件

jieba.cut 以及 jieba.cut_for_search 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語(unicode),或者用

jieba.lcut 以及 jieba.lcut_for_search 直接返回 list(採用這種方式更加方便)

import jieba

jieba.cut(

"大連聖亞在大連"

)#輸出:

print

([i for i in jieba.cut(

"大連聖亞在大連")]

)#輸出:['大連', '聖亞', '在', '大連']

jieba.lcut(

"大連聖亞在大連"

)#輸出:['大連', '聖亞', '在', '大連']

開發者可以指定自己自定義的詞典,以便包含jieba詞庫里沒有的詞。雖然jieba有新詞識別能力,但是自行新增新詞可以保證更高的正確率

jieba.load_userdict(r"c:\users\asus\desktop\user_dict.txt"

)print

([i for i in jieba.cut(

"大連聖亞在大連")]

)#輸出:['大連聖亞', '在', '大連']

此處錯誤記錄:當檔案路徑前我沒有加r的時候,會報錯:

syntaxerror: (unicode error) 『unicodeescape』 codec can』t decode bytes in position 2-3: truncated \u******xx escape

詞典格式和dict.txt一樣,乙個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。

其中詞頻我不太懂指的是什麼。

使用 add_word(word, freq=none, tag=none) 和 del_word(word) 可在程式中動態修改詞典。這是對「新增自定義詞典」功能的補充。

使用 suggest_freq(segment, tune=true) 可調節單個詞語的詞頻,使其能(或不能)被分出來,這個我不太懂在幹啥。

jieba.add_word(

"大連聖亞"

)print

([i for i in jieba.cut(

"大連聖亞在大連")]

)#輸出:['大連聖亞', '在', '大連']

jieba.lcut(

"大連聖亞在大連"

)#輸出:['大連聖亞', '在', '大連']

結巴分詞jieba新增自定義詞典

結巴分詞新增自定義詞典,有時候很有必要。比如下面這段話 test text 我們的健康碼也是綠色的,這憑什麼就限制我們的就醫!如果使用預設的分詞,那麼,健康碼 這個詞會分成 健康 和 碼 這裡可以使用詞典方式,新增自定義詞典。新建乙個txt檔案,在檔案裡輸入 健康碼 以utf 8形式儲存,這裡使用p...

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...

jieba分詞自定義詞庫無效果

首先我自定義了乙個詞庫,內容為 乾清宮 5 太和殿 3 黃琉璃瓦 3 午門 1 我是乙個 5 凱的試接 1我的分詞內容為 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等我是乙個好孩子我是乙個好孩子我是乙個好孩子 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等凱的試接 故宮的著名景點包括乾清宮 太和殿和黃...