C 中文分詞演算法 ChineseAnalyzer

2021-06-21 12:36:38 字數 732 閱讀 6946

1.首先需要引用 2個dll庫檔案 lucene.net.dll + lucene.china.dll

using lucene.net;

using lucene.net.analysis;

using lucene.china;

2.還有乙個data資料夾需要放在c:\program files (x86)\common files\microsoft shared\devserver\10.0目錄下 

裡面有三個檔案

(1).sdict.txt

(2).sdict.txt.bak

(3).snoise.txt

這三個檔案主要是用來根據那些詞去分詞的詞語 如圖:

**例項:

protected void button1_click(object sender, eventargs e)

; t1 = t1.split(separator)[0];

t = stream.next();

i++;

} textbox2.text = sb.tostring();

long end = system.datetime.now.ticks; //100毫微秒

int time = (int)((end - begin) / 10000); //ms

textbox2.text += "耗時" + (time) + "ms \r\n*****\r\n";

}執行結果如圖:

C 中文分詞演算法 ChineseAnalyzer

1.首先需要引用 2個dll庫檔案 lucene.net.dll lucene.china.dll using lucene.net using lucene.net.analysis using lucene.china 2.還有乙個data資料夾需要放在c program files x86 c...

中文分詞演算法

基於詞的頻度統計的分詞方法 基於知識理解的分詞方法 中文分詞演算法基本上可以分基於詞典的演算法 詞庫匹配以及基於詞頻的方法 將詞典中所有的詞按照從長到短的順序在文章中進行檢索,直至文章結束。效率比較低 漢字欄位與乙個 充分大 的詞典進行匹配,如果匹配成功,則識別出乙個詞。根據掃瞄方向的不同分為正向匹...

中文分詞演算法

中文分詞演算法現在一般分為三類 基於字串匹配,基於理解,基於統計的分詞。基於字串匹配分詞 機械分詞演算法。將待分的字串與乙個充分大的機器詞典中的詞條進行匹配。分為正向匹配和逆向匹配 最大長度匹配和最小長度匹配 單純分詞和分詞與標註過程相結合的一體化方法。所以常用的有 正向最大匹配,逆向最大匹配,最少...