hanlp自定義詞典進行分詞 關鍵詞提取和摘要提取

2021-09-28 19:49:13 字數 1649 閱讀 4550

系統:windows10 64

python版本:3.7.2

hanlp版本:0.1.50

'''

hanlp分詞,使用自定義詞典

windows安裝pyhanlp會因為網路問題而失敗,可以參考解決

'''# 準備資料

import numpy as np

from pyhanlp import

*f =

open

('./換流閥**.txt'

,'r'

,encoding=

'utf-8'

)text = f.read(

)f.close(

)

由於分詞內容是專業性內容,有些專有名詞在預設的字典裡面沒有出現過,直接預設詞庫進行分詞不夠準確,因此需要製作自己的詞典:

h an

lppa

th

hanlppath

hanlpp

ath刪除han

lppa

th

hanlppath

hanlpp

ath/data/dictionary/custom資料夾下字尾為.bin的快取檔案

製作自己的詞典,每個詞語佔一行,優先順序與順序有關,儲存為文字(筆者儲存的名稱為換流閥專有名詞.txt),放置在han

lppa

th

hanlppath

hanlpp

ath/data/dictionary/custom資料夾下

修改h an

lppa

th

hanlppath

hanlpp

ath/hanlp.properties檔案內容,修改以下行:

customdictionarypath=data/dictionary/custom/換流閥專有名詞.txt;

重新執行程式,會生成快取檔案換流閥專有名詞.txt.bin,如果沒有生成該檔案,可能是在ide環境中沒有重啟python直譯器

print

(hanlp.segment(text)

)print

(hanlp.extractkeyword(text,6)

)# 自動摘要

print

(hanlp.extractsummary(text,3)

)'''

[模型, 均壓電極, 閥塔, 圖, **, 分析]

[搭建了**所需的閥塔內冷水迴路三維模型和水路區域性模型, 文中基於有限元**軟體comsol multiphysics搭建了含均壓電極的內冷水迴路三維閥塔模型, 文中主要對換流閥冷卻水路系統進行了有限元電場**分析以及設計了相關實驗對**結果進行了驗證]

'''# 嘗試不加自定義詞典的效果

# 需要刪除檔案換流閥專有名詞.txt.bin,並且修改$hanlppath$/hanlp.properties檔案內容

'''[閥, 均, 模型, 電極, 壓, **]

[由於均壓電極的作用水路電位分布和閥塔整體電位分布一致, 文中基於有限元**軟體comsol multiphysics搭建了含均壓電極的內冷水迴路三維閥塔模型, 從該**結果可以看出在等電位線周圍以及均壓電極部分場強較大]

'''

HanLP自定義詞典注意事項

開啟hanlp的data目錄data dictionary custom,刪除所有的.txt.bin檔案,這樣一來,hanlp下次載入詞典時會自動構建.txt.bin,這樣一來,你對文字檔案所做的更改才會生效。對於hanlp中的字典,每次更改之後,都必須重新生成bin才可以,否則不會生效。實際上,這...

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...

IK中文分詞擴充套件自定義詞典!!!

1.基於分布式系統的自定義分詞要求與流程設計 見圖 e plan readingnote 分詞與索引 分詞 2012 4 20 2.分詞實現原理 詞典的載入過程 2.1.分詞詞典的載入過程涉及到3個類,分別是configuration類,directory類,以及dictsegment類。其中前兩個...