結巴分詞jieba新增自定義詞典

2021-10-19 07:27:09 字數 1003 閱讀 6226

結巴分詞新增自定義詞典,有時候很有必要。比如下面這段話:

test_text = """

我們的健康碼也是綠色的,

這憑什麼就限制我們的就醫!

"""

如果使用預設的分詞,那麼,「健康碼」這個詞會分成「健康」和「碼」

這裡可以使用詞典方式,新增自定義詞典。

新建乙個txt檔案,在檔案裡輸入「健康碼」

以utf-8形式儲存,這裡使用pycharm,預設就是utf8.不用管。

然後使用

jieba.load_userdict(os.path.join(wk_dir, "jiebadict.txt"))
wk_dir是詞典放置的目錄,詞典檔名預設為jiebadict.txt.

再一次分詞,就可以得到這個結果。

如果不想用這個詞作為一整個詞,下次分詞時,還是想,健康, 和碼分開,那麼就使用

jieba.del_word("健康碼")
那麼自定義詞典的檔案就沒有這個詞。下次分詞還是會按照預設的方式,分成「健康」,「碼」

如果還想新增其他的,那麼可以開啟jiebadict.txt檔案,一行一行新增想要新增的自定義詞典。

或者使用

jieba.add_word("憑什麼")

自定義詞典,應該是每次使用都需要手動載入,不然不會發揮作用。

jieba結巴分詞加入自定義詞典

新增自定義詞典 動態調整詞典 參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...

jieba分詞自定義詞庫無效果

首先我自定義了乙個詞庫,內容為 乾清宮 5 太和殿 3 黃琉璃瓦 3 午門 1 我是乙個 5 凱的試接 1我的分詞內容為 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等我是乙個好孩子我是乙個好孩子我是乙個好孩子 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等凱的試接 故宮的著名景點包括乾清宮 太和殿和黃...