系統:windows10 64
python版本:3.7.2
hanlp版本:0.1.50
'''
hanlp分詞,使用自定義詞典
windows安裝pyhanlp會因為網路問題而失敗,可以參考解決
'''# 準備資料
import numpy as np
from pyhanlp import
*f =
open
('./換流閥**.txt'
,'r'
,encoding=
'utf-8'
)text = f.read(
)f.close(
)
由於分詞內容是專業性內容,有些專有名詞在預設的字典裡面沒有出現過,直接預設詞庫進行分詞不夠準確,因此需要製作自己的詞典:
h an
lppa
th
hanlppath
hanlpp
ath刪除han
lppa
th
hanlppath
hanlpp
ath/data/dictionary/custom資料夾下字尾為.bin的快取檔案
製作自己的詞典,每個詞語佔一行,優先順序與順序有關,儲存為文字(筆者儲存的名稱為換流閥專有名詞.txt),放置在han
lppa
th
hanlppath
hanlpp
ath/data/dictionary/custom資料夾下
修改h an
lppa
th
hanlppath
hanlpp
ath/hanlp.properties檔案內容,修改以下行:
customdictionarypath=data/dictionary/custom/換流閥專有名詞.txt;
重新執行程式,會生成快取檔案換流閥專有名詞.txt.bin,如果沒有生成該檔案,可能是在ide環境中沒有重啟python直譯器
print
(hanlp.segment(text)
)print
(hanlp.extractkeyword(text,6)
)# 自動摘要
print
(hanlp.extractsummary(text,3)
)'''
[模型, 均壓電極, 閥塔, 圖, **, 分析]
[搭建了**所需的閥塔內冷水迴路三維模型和水路區域性模型, 文中基於有限元**軟體comsol multiphysics搭建了含均壓電極的內冷水迴路三維閥塔模型, 文中主要對換流閥冷卻水路系統進行了有限元電場**分析以及設計了相關實驗對**結果進行了驗證]
'''# 嘗試不加自定義詞典的效果
# 需要刪除檔案換流閥專有名詞.txt.bin,並且修改$hanlppath$/hanlp.properties檔案內容
'''[閥, 均, 模型, 電極, 壓, **]
[由於均壓電極的作用水路電位分布和閥塔整體電位分布一致, 文中基於有限元**軟體comsol multiphysics搭建了含均壓電極的內冷水迴路三維閥塔模型, 從該**結果可以看出在等電位線周圍以及均壓電極部分場強較大]
'''
HanLP自定義詞典注意事項
開啟hanlp的data目錄data dictionary custom,刪除所有的.txt.bin檔案,這樣一來,hanlp下次載入詞典時會自動構建.txt.bin,這樣一來,你對文字檔案所做的更改才會生效。對於hanlp中的字典,每次更改之後,都必須重新生成bin才可以,否則不會生效。實際上,這...
jieba 分詞自定義詞典問題
只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...
IK中文分詞擴充套件自定義詞典!!!
1.基於分布式系統的自定義分詞要求與流程設計 見圖 e plan readingnote 分詞與索引 分詞 2012 4 20 2.分詞實現原理 詞典的載入過程 2.1.分詞詞典的載入過程涉及到3個類,分別是configuration類,directory類,以及dictsegment類。其中前兩個...