使用jieba維護自定義詞 停用詞表

2021-08-11 04:54:47 字數 798 閱讀 4855

對於文字處理來說,好的分詞結果,是一切開始的基礎。下面結合我的使用,簡要說說使用jieba分詞,如何新增、刪除自定義詞,以及使用停用詞表,方便自己以後查閱。

import jieba

jieba.add_word("自定義詞1")

jieba.add_word("自定義詞2")

方法一需要我們手動乙個個新增,當自定義詞較多時,我們可以用下面的方法:

import jieba

jieba.load_userdict(file_name)

其中, file_name 為檔案類物件或自定義詞典的路徑,詞典格式和 dict.txt 一樣,乙個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。file_name 若為路徑或二進位制方式開啟的檔案,則檔案必須為 utf-8 編碼。

詞頻省略時使用自動計算的能保證分出該詞的詞頻。在實際使用時,發現沒有給詞頻時,並不能將有些詞正確分詞,自己嘗試幾遍後,發現人為給乙個比較大的詞頻就可以分出來了。具體原因還沒有深挖。

與新增相對應的,刪除的方法也有兩個。

import jieba

jieba.del_word("自定義詞1")

將詞從自定義的文字檔案中刪除。

停用詞過濾主要是自己構造停用詞表文字檔案,並將文字中的內容讀入list,對分詞後的結果逐個檢查是否在停用詞列表中,如果在,就過濾掉,最後得到過濾後的結果。

這篇部落格寫作時參考了一下內容:

1 2

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...

jieba分詞自定義詞庫無效果

首先我自定義了乙個詞庫,內容為 乾清宮 5 太和殿 3 黃琉璃瓦 3 午門 1 我是乙個 5 凱的試接 1我的分詞內容為 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等我是乙個好孩子我是乙個好孩子我是乙個好孩子 故宮的著名景點包括乾清宮 太和殿和黃琉璃瓦等凱的試接 故宮的著名景點包括乾清宮 太和殿和黃...

jieba結巴分詞加入自定義詞典

新增自定義詞典 動態調整詞典 參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...