HanLP自定義詞典注意事項

2021-09-02 20:03:01 字數 1080 閱讀 4101

開啟hanlp的data目錄data\dictionary\custom,刪除所有的.txt.bin檔案,這樣一來,hanlp下次載入詞典時會自動構建.txt.bin,這樣一來,你對文字檔案所做的更改才會生效。對於hanlp中的字典,每次更改之後,都必須重新生成bin才可以,否則不會生效。

實際上,這種方式不夠智慧型,可以改進為檢查檔案日期的方式,如果當前目錄下的最新的詞典檔案比bin檔案新,那麼bin檔案失效,需要重新構建bin。

構建bin的過程是比較緩慢的,它需要把所有的相關文字檔案中的詞語合併到乙個裡面,每次構建大概需要2min,構建完成之後下次啟動就很快了。

更改hanlp.properties,新增mine.txt.

#自定義詞典路徑,用;隔開多個自定義詞典,空格開頭表示在同乙個目錄,使用「檔名 詞性」形式則表示這個詞典的詞性預設是該詞性。優先順序遞減。

#另外data/dictionary/custom/customdictionary.txt是個高質量的詞庫,請不要刪除

customdictionarypath=data/dictionary/custom/mine.txt; customdictionary.txt; 現代漢語補充詞庫.txt; 全國地名大全.txt ns; 人名詞典.txt; 機構名詞典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf

在data/dictionary/custom/目錄下新建mine.txt,新增一些詞語。比如裡面加上」蘭陵笑笑生「。

隨便編乙個程式測試一下

listres = hanlp.segment("蘭陵笑笑生笑道:你他娘的真是個天才");

system.out.println(res);//[蘭陵笑笑生/nr, 笑/v, 道/q, :/w, 你/r, 他/r, 娘/n, 的/uj, 真/d, 是/v, 個/q, 天才/n]

for (string i : hanlp.config.customdictionarypath)

#1樓

2018-03-08 11:24 hapjin

確實。 第6點已經說了。不過作者說,主要是基於統計來分詞……

hanlp自定義詞典進行分詞 關鍵詞提取和摘要提取

系統 windows10 64 python版本 3.7.2 hanlp版本 0.1.50 hanlp分詞,使用自定義詞典 windows安裝pyhanlp會因為網路問題而失敗,可以參考解決 準備資料 import numpy as np from pyhanlp import f open 換流閥...

自定義View注意事項

既然是自定義view所以為了方便需要繼承view類,或者其他view類例如textview等類之定義view必須寫入建構函式而且需要函式過載,並且加入super contex 等樣式如下我第一次做自定義view時就忘了使用super context,attrs 這個方法,結果findviewbyid...

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...