solr5 0整合mmseg4j分詞器

2021-07-03 08:24:25 字數 471 閱讀 7782

畢竟ik跟不上搜尋引擎的步驟啊,以前用習慣了ik突然solr5.0卻沒有對應的版本(可能是我沒找到吧)。這裡先用mmesg4j代替下,感覺還不錯,整合流程超級簡單,幾步就搞定:

2、進入solr/home目錄,建立自己的詞庫,我這裡是建立my_dic資料夾,裡面放乙個words***.dic的檔案就行(注意,自己的詞庫優先順序沒有預設的高)。

附:可以將mmseg4j-core-1.10.0.jar裡面預設的詞庫自己修改下也行,再不行修改原始碼咯string defpath = system.getproperty("mmseg.dic.path"))mmseg.dic.path決定載入詞庫優先順序的,很簡單,不多介紹了。

3、進入schema.xml,增加如下配置:

4、重啟solr,搞定了。

5、至於配置檔案的三中分詞效果自己去嘗試一下就明白了,max用的應該會多點

solr整合mmseg4j實現中文分詞檢索

1 使用mmseg4j 1.9版本 mmseg4j core 1.9.0.jar 包括詞庫檔案 mmseg4j analysis 1.9.0.jar 是一些 analysis mmseg4j solr 1.9.0.jar 是一些 solr 使用的功能。2 將mmseg的jar放入solr web i...

solr整合mmseg4j實現同義詞檢索

1 基於中文分詞的基礎上加入同義詞特性 2 需要mmseg4j支援 3 如搜尋 北京 同義詞有 京城 帝都 等 solr官方已經提供同義詞特性,但不支援中文同義詞,需要在中文分詞的基礎上進行配置。在原中文分詞的基礎上加入 檔案 synonyms.txt 和schema.xml在同級目錄,solr預設...

solr安裝mmseg4j 分詞器

注意版本 2.拷貝jar 3.準備自定義詞庫 1.6版支援多個詞庫檔案,定義的目錄下讀到 words 字首且 dic 為字尾的檔案,如 f dic words mmseg4j.dic。新增自定義詞條,一條一行 注意,必須utf 8編碼格式 如下圖所示 4.配置schema.xml dicpath f...