準確率創新高,北大開源中文分詞工具包 pkuseg

2021-09-19 14:55:32 字數 673 閱讀 7009

開發四年只會寫業務**,分布式高併發都不會還做程式設計師? >>>

北京大學近日開源了乙個全新的中文分詞工具包 pkuseg ,相比於現有的同類開源工具,pkuseg 大幅提高了分詞的準確率。

pkuseg 由北大語言計算與機器學習研究組研製推出,具備如下特性:

高分詞準確率。相比於其他的分詞工具包,pkuseg 在不同領域的資料上都大幅提高了分詞的準確度。根據專案文件給出的測試結果,pkuseg 分別在示例資料集( msra 和 ctb8 )上降低了 79.33% 和 63.67% 的分詞錯誤率。

多領域分詞。研究組訓練了多種不同領域的分詞模型。根據待分詞的領域特點,使用者可以自由地選擇不同的模型。

支援使用者自訓練模型。支援使用者使用全新的標註資料進行訓練。

效能對比

在 linux 環境下,各工具在新聞資料 (msra) 和混合型文字 (ctb8) 資料上的準確率測試情況如下:

預訓練模型

分詞模式下,使用者需要載入預訓練好的模型。我們提供了三種在不同型別資料上訓練得到的模型,根據具體需要,使用者可以選擇不同的預訓練模型。以下是對預訓練模型的說明:

更多詳情可查閱專案倉庫。

準確率召回率

知道意思,但是有時候要很清晰地向同學介紹則有點轉不過彎來。召回率和準確率是資料探勘中 網際網路中的搜尋引擎等經常涉及的兩個概念和指標。召回率 recall,又稱 查全率 還是查全率好記,也更能體現其實質意義。準確率 precision,又稱 精度 正確率 以檢索為例,可以把搜尋情況用下圖表示 相關 ...

分類 準確率

準確率是乙個用於評估分類模型的指標。通俗來說,準確率是指我們的模型 正確的結果所佔的比例。正式點說,準確率的定義如下 accuracy number of correct predictionstotal number of predictions 對於二元分類,也可以根據正類別和負類別按如下方式計...

召回率與準確率

召回率和準確率是資料探勘中 網際網路中的搜尋引擎等經常涉及的兩個概念和指標。召回率 recall,又稱 查全率 還是查全率好記,也更能體現其實質意義。準確率 precision,又稱 精度 正確率 以檢索為例,可以把搜尋情況用下圖表示 相關 不相關 檢索到 a b 未檢索到 c d a 檢索到的,相...