盤古分詞小測

2021-09-08 08:27:47 字數 797 閱讀 9928

編譯了以後,跟蹤了一下**,**應該是高手寫的,非常的清晰。只是因為沒有文件,時間有限,不能深入研究它的演算法。基本的演算法是這樣的:

比如句子:「盤古分詞 簡介: 盤古分詞 是由eaglet 開發的一款基於字典的中英文分詞元件」

先根據 非中文符號,對句子進行切分,如下:

盤古分詞/ /簡介/: /盤古分詞/ /是由/eaglet/ 開發的一款基於字典的中英文分詞元件

然後,對上面的每個部分進行 切分,切分的演算法沒有仔細看,估計是最大正向匹配,應該不是統計分詞的演算法。

在這個過程中,還對人名進行識別。人名識別,用的不是統計方法,具體的沒有仔細看。

現在分詞中,準確率最高的是 統計分詞,google 的分詞 按照其員工 吳軍 的說法就是統計方法。所以我估計盤古分詞的準確率不會很高。

比如下面的句子:鄧穎超生於2023年

我用中科院的分詞 分出的結果是 鄧穎超/生於/2023年/,是對的。

用盤古分詞的結果是 鄧/穎/超生/於/1916/年/ 不是很準確。

盤古分詞的字典演算法是用漢字的第乙個字做索引,字典大起來的話,可能效率不是很高,這裡可能要改進一下。

機械分詞最好的(我測試過的,個人感覺) 

這個專案也是開源的,字典非常大,估計用了40萬字,它的字典演算法非常的好,用的是 平衡二叉樹。

盤古分詞如果要精度更高,個人認為提高字典的速度和質量是乙個方法,新增一本30萬字以上的字典。一般來說,機械分詞的準確性,主要決定於字典。

posted @

2009-09-15 17:36

暮夏 閱讀(

...)

編輯收藏

盤古分詞 多元分詞演算法

中文分詞按照分詞粒度來分,分成 一元分詞,二元分詞,多元分詞和精確分詞等型別。一元分詞就是最簡單的分詞,將所有的中文字元按照單字形式輸出。二元分詞按雙字形式輸出。多元分詞則是將一句話中可能的單詞組合按照一定規則輸出,允許輸出的詞有重疊。精確分詞則是將一句話中最準確的單詞組合輸出,不允許輸出的詞有重疊...

盤古分詞 功能簡介

posted on 2009 08 13 16 50 eaglet 閱讀 8474 編輯收藏 盤古分詞 功能簡介 兩年前我開發了乙個ktdictseg 中文分詞元件,這個元件推出2年來受到很多朋友的喜愛。不過由於我當初開發ktdictseg時比較倉促,底子沒有打好,而且當時對分詞的理解也比較膚 淺,...

Lucene和PanGu(盤古分詞)

先用盤古分詞生成索引,然後對進行查詢語句進行分詞查詢。比較簡單。using system using system.collections.generic using system.linq using system.web using system.web.ui using system.web....