史上最全中文分詞工具整理

2021-09-24 02:57:33 字數 1265 閱讀 9204

一.中文分詞

二.準確率評測:

thulac:與代表性分詞軟體的效能對比

我們選擇ltp-3.2.0 、ictclas(2015版) 、jieba(c++版)等國內具代表性的分詞軟體與thulac做效能比較。我們選擇windows作為測試環境,根據第二屆國際漢語分詞測評(the secondinternational chinese word segmentation bakeoff)發布的國際中文分詞測評標準,對不同軟體進行了速度和準確率測試。

在第二屆國際漢語分詞測評中,共有四家單位提供的測試語料(academia sinica、 city university 、peking university 、microsoftresearch), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集(training)、測試集(testing), 以及根據各自分詞標準而提供的相應測試集的標準答案(icwb2-data/scripts/gold).在icwb2-data/scripts目錄下含有對分詞進行自動評分的perl指令碼score。

我們在統一測試環境下,對上述流行分詞軟體和thulac進行了測試,使用的模型為各分詞軟體自帶模型。thulac使用的是隨軟體提供的簡單模型model_1。評測環境為 intel core i5 2.4 ghz 評測結果如下:

除了以上在標準測試集上的評測,我們也對各個分詞工具在大資料上的速度進行了評測,結果如下:

分詞資料準備及評測由bosonnlp完成:11 款開放中文分詞引擎大比拼(2023年發布)

準確度計算規則:

將所有標點符號去除,不做比較

參與測試的部分系統進行了實體識別,可能造成詞語認定的不統一。我們將對應位置替換成了人工標註的結果,得到準確率估算的上界。

經過以上處理,用sighan 分詞評分指令碼比較得到最終的準確率,召回率和f1值。

史上最全中文語料資料集

資料集資料概覽 chnsenticorp htl all waimai 10k 某外賣平台收集的使用者評價,正向 4000 條,負向 約 8000 條 online shopping 10 cats weibo senti 100k simplifyweibo 4 moods dmsc v2 yf ...

整理了乙份史上最全的DevOps 工具鏈

2018 02 07 朱少民 軟體質量報道 在列出devops 工具鏈之前,介紹一下什麼是devops,雖然devops這個概念現在還沒有標準的定義,但我們可以追溯一下其過去九年的歷史發展過程 從2009年 2017年 列出幾個相對明確又有所不同不同的定義,從而能夠比較全面了解devops的內涵。d...

史上最全的Shiro學習整理 yellowcong

這些文章,都是我對shiro的人事精華,裡面又很全的shiro案例,對於後期的shiro許可權管理和開發又很大的好處。shiro之加密方式 yellowcong shiro之多realm的認證及認證策略 yellowcong shiro之 的使用 yellowcong shiro之授權管理與授權的三...