NLP規則分詞實驗 Java版

2021-09-14 01:25:05 字數 1060 閱讀 9725

完成日期:2018.11.03

github:

詳細理論介紹請看:

(1)已「對外經濟技術合作與交流不斷擴大。」為例,演示頁面如下:

可以看到,當rmm與mm的分詞結果相同時,就直接輸出分詞結果。

(2)以「幼兒園地節目。」為例,演示頁面如下:

可以看到,當rmm與mm的分詞結果不相同時,將輸出兩種方法的分詞結果,然後請人工選擇。

正向匹配

public void mm(string source, int len, int npos)

string substr=source.substring(npos,npos+len);

if(dict.contains(substr))

else}}

逆向匹配

public void rmm(string source, int len, int npos)

string substr=source.substring(npos-len,npos);

if(dict.contains(substr))

else}}

雙向匹配

public class seg_bi 

public static void main(string args)

public string get_mmresult()

public string get_rmmresult()

public string get_result()

public boolean check_right(string source)

}

ps: 這裡只貼出了幾個主要的函式,視覺化頁面和整個**可以上github上看哦!

NLP基礎實驗 中文分詞 jieba

中文分詞有很多種,常見的比如有中科院計算所 nlpir 哈工大 ltp 清華大學 thulac 斯坦福分詞器 hanlp 分詞器 jieba 分詞 ikanalyzer 等。官方 三種分詞演算法 支援三種分詞模式 import jieba content 現如今,機器學習和深度學習帶動人工智慧飛速的...

NLP 自動分詞

統計自然語言處理 學習筆記 由字構詞的漢語分詞方法 2002 由字構詞的漢語分詞方法的思想 它是將分詞的過程看作字的分類問題。在以往的分詞方法中,無論是基於規則的方法還是基於統計的方法,一般都依賴於乙個事先編制的詞表,自動分詞的過程就是通過查詞表作出詞語切分的決策,與此相反,由字構詞的分詞方法認為每...

NLP筆記 分詞

分詞標註方案 分詞工具 常見模型 維護詞典 用語句中字串與詞典進行比較,找到則切分,否則不切分。相連的字反覆出現,認為它們可能組成的是乙個詞。補充 hmm 齊次馬爾科夫假設,發射概率,轉移概率 先基於詞典進行分詞,再使用統計方法輔助 處理未登入詞和歧義詞 標籤 b begin i intermedi...