IKAnalyzer 自定義分詞器

2021-08-10 08:01:57 字數 834 閱讀 5626

lucene 全文搜尋框架,具體的定義在這裡就不過多的介紹。那麼主要講一下,利用第三方分詞器自定義我們的分成規則,ikanalyzer 庖丁分詞器就是乙個很好的中文分詞器。首先匯入對應的jar包,我們都很清楚,配置檔案是一種有效擴充套件的一種方式,那麼ikanalyzer也不例外。

1.首先建立乙個專案

2.ikanalyzer   框架建立預設初始化載入ikanalyzer.cfg.xml配置檔案中資訊,在此檔案中我們可以配置自己的分詞器規則,如下我們建立測試類:

測試結果為:

再次執行我們的測試:

由上圖可知我們可以根據自己的需求定義自己的規則,在這裡我遇到了乙個小問題希望可以幫助到大家,在建立專案時預設為gbk,在建立自定義.dic檔案時也是gbk編碼,雖然定義「高大上」詞,但是索引始終無「高大上」,最後知是此檔案的編碼問題,所以改變.dic檔案為「utf-8」,然後重新編寫,執行ok,所以對於專案中遇到中文問題大家一定注意。

八 使用IKAnalyzer自定義分詞字典

這裡我使用的是ik analyzer 2012ff hf1.zip 這個包 因為我用的是solr4.x的 解壓 檔案拷貝 解壓之後講ikanalyzer的jar包拷貝到 solr home的lib目錄下 將ikanalyzer.conf.xml和stopword.dic放到classes目錄下,我這...

IKAnalyzer如何自定義遠端詞庫

ikanalyzer1.3.4要自定義我們自己的詞庫,而且我們可以隨時新增分詞,網上查了一圈沒有相關資料,看來只有自己搞定了。這裡大家需要熟悉http協議中的last modified etags這些概念,這樣能更容易理解ikanalyzer作者的設計思路。觀察了下ikanalyzer分詞器的配置檔...

IKAnalyzer如何自定義遠端詞庫

ikanalyzer1.3.4要自定義我們自己的詞庫,而且我們可以隨時新增分詞,網上查了一圈沒有相關資料,看來只有自己搞定了。這裡大家需要熟悉http協議中的last modified etags這些概念,這樣能更容易理解ikanalyzer作者的設計思路。觀察了下ikanalyzer分詞器的配置檔...