mmseg4j 中文分詞器的一些簡介整理

2021-05-22 13:08:16 字數 883 閱讀 4615

在 lucene 中,我們是使用 indexwriter 呼叫 analyzer 將文章切成以詞為單位的 stream,然後生成索引的。lucene 內建的分詞器很多,比如:按空白字元分詞的whitespaceanalyzer,新增了stopword過濾的stopanalyzer,以及最常用的是standardanalyzer。這些自帶的分詞器對中文支援多不好,我覺得比較好的中文分詞器是 mmseg4j 。

mmseg4j 是用 chih-hao tsai 的 mmseg 演算法實現的中文分詞器。並實現了 lucene 的 analyzer 和 solr 的 tokenize***ctory 以方便在 lucene 和 solr 中使用。

對 lucene  來說 ,mmseg4j 有以下四個 analyzer:******analyzer、complexanalyzer、maxwordanalyzer、mmseganalyzer。前面三個都是繼承 mmseganalyzer,mmseganalyzer 預設使用 max-word 方式分詞。

上面四個分次類涉及到了三個分詞方法:******、complex、max-word。mmseg 演算法有兩種分詞方法:****** 和 complex,都是基於正向最大匹配。mmseg4j  1.6 版開始在 complex 演算法基礎上實現了最多分詞(max-word)。類似如下的分詞就是 max-word 分詞:「很好聽」 -> "很好|好聽"; 「中華人民共和國」 -> "中華|華人|共和|國"; 「中國人民銀行」 -> "中國|人民|銀行"。

mmseg4j 的詞庫是使用 utf-8 格式的,由於 utf-8 檔案有帶與不帶 bom 之分,建議詞庫第一行為空行或為無 bom 格式的 utf-8 檔案。

jar 中已有了,只有你對這個不滿意時才需要替換的詞庫檔案:

詞庫檔案:

停止詞

solr安裝mmseg4j 分詞器

注意版本 2.拷貝jar 3.準備自定義詞庫 1.6版支援多個詞庫檔案,定義的目錄下讀到 words 字首且 dic 為字尾的檔案,如 f dic words mmseg4j.dic。新增自定義詞條,一條一行 注意,必須utf 8編碼格式 如下圖所示 4.配置schema.xml dicpath f...

solr4 5配置中文分詞器mmseg4j

solr4.x雖然提供了分詞器,但不太適合對中文的分詞,給大家推薦乙個中文分詞器mmseg4j 通過以下幾步就可以把mmseg4j分詞器整合到solr中 1 解壓mmseg4j 1.9.1.zip,把dist下面的所有jar檔案拷貝到你應用伺服器下的solr web inf lib中 如果你的應用伺...

solr4 5配置中文分詞器mmseg4j

solr4.x雖然提供了分詞器,但不太適合對中文的分詞,給大家推薦乙個中文分詞器mmseg4j 通過以下幾步就可以把mmseg4j分詞器整合到solr中 1 解壓mmseg4j 1.9.1.zip,把dist下面的所有jar檔案拷貝到你應用伺服器下的solr web inf lib中 如果你的應用伺...