SkyLightAnalyzer(天亮分詞器)小結

2021-07-02 15:32:51 字數 502 閱讀 5816

一直以來想寫個自己的中文分詞器,從2023年5月份寫了基於二分插入、雙陣列演算法實現的中文粗分詞,之後由於各種原因未能進一步完善達到乙個標準分詞器的水準,自上週從公司離職後,歷經一周的努力,並在ansj分詞的輔助參考下,終於取得了不錯的突破,希望有對這塊感興趣的同學可以在此互相交流。

現在分詞達到的基本要求是:

1、基於雙陣列結構實現的機械分詞

2、詞條刪除與增加、以及對已有詞條的快取讀寫。

3、詞意消歧的處理,包括n-gram和詞性的總詞頻數的兩個因子,效果已達到。

4、詞性標註在詞意消歧的基礎上,用viterbi演算法取最優路徑,達到預定效果。

5、分詞準確率約為94%以上,分詞速率為50萬字/秒,暫味在此著重優化,還有很大提公升空間,到100萬字是肯定有把握的。

6、新詞發現放於下階段去實現。

有想法的同學可以和我聯絡,我也會不定期的將開源版本放到  

下一段會寫將skylightanalyzer分詞器放到最新版的lucene4.5中的介面設計與實現。

ik分詞器 分詞原理 分詞技術及開源分詞器

分詞是自然語言處理的第一步,這裡主要從序列標註的角度遞進介紹hmm如何實現分詞,然後介紹分詞工具的使用,在nlp中,分詞 詞性標註和命名實體識別都屬於標註任務,也就是對token進行分詞,對於分詞任務難點有以下幾個 新詞的發現 未登陸此 人名 地名 商標名 公司名稱 2.詞典與演算法優先順序 我們 ...

結巴分詞器

結巴分詞 coding utf 8 import sys import os import jieba sent 天善智慧型是乙個專注於商業智慧型bi 資料分析 資料探勘和大資料技術領域的技術社群 www.hellobi.com 內容從最初的商業智慧型 bi 領域也擴充到了資料分析 資料探勘和大資料...

lucene IK分詞器 不分詞

需求 名字 東方朔 ik 東方 朔 當我查詢索引東方朔的時候 並沒有出現我所需要的結果,是因為沒有東方朔這個詞 因此我需要不分詞。尋找不分詞的方法尋找了很久,首先是自定義擴充套件的詞,但是這個問題我遇到了版本不合適,聽說ik2012分詞器不支援4.0以上的版本,不過當我把lucene版本降到3.6的...