Lucene中文分詞元件 JE Analysis

2021-04-16 16:05:19 字數 699 閱讀 2318

//採用正向最大匹配的中文分詞演算法,相當於分詞粒度等於0

mmanalyzer analyzer = new mmanalyzer();

//引數為分詞粒度:當字數等於或超過該引數,且能成詞,該詞就被切分出來

mmanalyzer analyzer = new mmanalyzer(int wordlength);

//字串切分,常用於客戶的關鍵字輸入

analyzer.segment(string text, string separator);

詞典維護api(靜態方法):

//增加乙個新詞典,採用每行乙個詞的讀取方式(注意:多執行緒狀態下此時的分詞效果將不可預料)

mmanalyzer.adddictionary(reader reader);

//增加乙個新詞

mmanalyzer.addword(string newword);

//刪除詞庫中的全部詞語(注意:非常危險的操作,在沒有載入新的詞庫前所有的分詞都將失效)

mmanalyzer.clear();

//詞庫中是否包含該詞

mmanalyzer.contains(string word);

//從詞庫中移除該詞

mmanalyzer.removeword(string word);

//當前詞庫中包含的詞語總數

mmanalyzer.size();

中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...

scws中文分詞元件

使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...

Python中文分詞元件jieba

output 全模式 我 來到 北京 清華 清華大學 華大 大學 精確模式 我 來到 北京 清華大學 新詞識別 他,來到,了,網易,杭研,大廈 此處,杭研 並沒有在詞典中,但是也被viterbi演算法識別出來了 搜尋引擎模式 小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,...