使用HanLP分詞時,詞性標註錯誤的問題

2021-10-04 21:22:00 字數 268 閱讀 8078

使用hanlp分詞時,標註詞性經常出錯,尤其見於人名譯名的錯誤。

比如將「海爾」識別為人名,標註了nrf詞性。

但是我們想把「海爾」識別為品牌名字,就需要修改nrf.txt檔案。

修改詞典後要刪除對應的二進位制檔案,如nrf.txt.trie.dat檔案。

重新build專案,run。

以及各種其他的詞性標註錯誤,一般都是衝突,檢視被標記成的詞性,在使用者字典中搜尋刪除,或者替換,或者另外載入自定義字典。

注意路徑。

參考:

結巴分詞 詞性標註

1 簡介 詞性 part of speech 是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述乙個詞在上下文的作用。例如,描述乙個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做...

python jieba分詞 詞性標註

進行詞性標註 檔案讀取寫入 做實驗室的乙個專案,暫時要做的內容 對文字資料作摘要 8 首先觀察文字資料,我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...

Jieba分詞詞性標註以及詞性說明

import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....