盤古分詞小測

編譯了以後，跟蹤了一下**，**應該是高手寫的，非常的清晰。只是因為沒有文件，時間有限，不能深入研究它的演算法。基本的演算法是這樣的：

比如句子：「盤古分詞簡介: 盤古分詞是由eaglet 開發的一款基於字典的中英文分詞元件」

先根據非中文符號，對句子進行切分，如下：

盤古分詞/ /簡介/: /盤古分詞/ /是由/eaglet/ 開發的一款基於字典的中英文分詞元件

然後，對上面的每個部分進行切分，切分的演算法沒有仔細看，估計是最大正向匹配，應該不是統計分詞的演算法。

在這個過程中，還對人名進行識別。人名識別，用的不是統計方法，具體的沒有仔細看。

現在分詞中，準確率最高的是統計分詞，google 的分詞按照其員工吳軍的說法就是統計方法。所以我估計盤古分詞的準確率不會很高。

比如下面的句子：鄧穎超生於2023年

我用中科院的分詞分出的結果是鄧穎超/生於/2023年/,是對的。

用盤古分詞的結果是鄧/穎/超生/於/1916/年/ 不是很準確。

盤古分詞的字典演算法是用漢字的第乙個字做索引，字典大起來的話，可能效率不是很高，這裡可能要改進一下。

機械分詞最好的(我測試過的，個人感覺)

這個專案也是開源的，字典非常大，估計用了40萬字，它的字典演算法非常的好，用的是平衡二叉樹。

盤古分詞如果要精度更高，個人認為提高字典的速度和質量是乙個方法，新增一本30萬字以上的字典。一般來說，機械分詞的準確性，主要決定於字典。

posted @

2009-09-15 17:36

暮夏閱讀(

...)

編輯收藏

盤古分詞多元分詞演算法

中文分詞按照分詞粒度來分，分成一元分詞，二元分詞，多元分詞和精確分詞等型別。一元分詞就是最簡單的分詞，將所有的中文字元按照單字形式輸出。二元分詞按雙字形式輸出。多元分詞則是將一句話中可能的單詞組合按照一定規則輸出，允許輸出的詞有重疊。精確分詞則是將一句話中最準確的單詞組合輸出，不允許輸出的詞有重疊...

盤古分詞功能簡介

posted on 2009 08 13 16 50 eaglet 閱讀 8474 編輯收藏盤古分詞功能簡介兩年前我開發了乙個ktdictseg 中文分詞元件，這個元件推出2年來受到很多朋友的喜愛。不過由於我當初開發ktdictseg時比較倉促，底子沒有打好，而且當時對分詞的理解也比較膚淺，...

Lucene和PanGu（盤古分詞）

先用盤古分詞生成索引，然後對進行查詢語句進行分詞查詢。比較簡單。using system using system.collections.generic using system.linq using system.web using system.web.ui using system.web....

盤古分詞小測

盤古分詞 多元分詞演算法

盤古分詞 功能簡介

Lucene和PanGu（盤古分詞）

相關推薦

盤古分詞多元分詞演算法

盤古分詞功能簡介