mmseg4j 中文分詞器的一些簡介整理

在 lucene 中，我們是使用 indexwriter 呼叫 analyzer 將文章切成以詞為單位的 stream，然後生成索引的。lucene 內建的分詞器很多，比如：按空白字元分詞的whitespaceanalyzer，新增了stopword過濾的stopanalyzer，以及最常用的是standardanalyzer。這些自帶的分詞器對中文支援多不好，我覺得比較好的中文分詞器是 mmseg4j 。

mmseg4j 是用 chih-hao tsai 的 mmseg 演算法實現的中文分詞器。並實現了 lucene 的 analyzer 和 solr 的 tokenize***ctory 以方便在 lucene 和 solr 中使用。

對 lucene 來說，mmseg4j 有以下四個 analyzer：******analyzer、complexanalyzer、maxwordanalyzer、mmseganalyzer。前面三個都是繼承 mmseganalyzer，mmseganalyzer 預設使用 max-word 方式分詞。

上面四個分次類涉及到了三個分詞方法：******、complex、max-word。mmseg 演算法有兩種分詞方法：****** 和 complex，都是基於正向最大匹配。mmseg4j 1.6 版開始在 complex 演算法基礎上實現了最多分詞(max-word)。類似如下的分詞就是 max-word 分詞：「很好聽」 -> "很好|好聽"; 「中華人民共和國」 -> "中華|華人|共和|國"; 「中國人民銀行」 -> "中國|人民|銀行"。

mmseg4j 的詞庫是使用 utf-8 格式的，由於 utf-8 檔案有帶與不帶 bom 之分，建議詞庫第一行為空行或為無 bom 格式的 utf-8 檔案。

jar 中已有了，只有你對這個不滿意時才需要替換的詞庫檔案：

詞庫檔案：

停止詞

mmseg4j 中文分詞器的一些簡介整理

solr安裝mmseg4j 分詞器

solr4 5配置中文分詞器mmseg4j

solr4 5配置中文分詞器mmseg4j

mmseg4j 中文分詞器的一些簡介整理

solr安裝mmseg4j 分詞器

solr4 5配置中文分詞器mmseg4j

solr4 5配置中文分詞器mmseg4j

相關推薦