solr整合mmseg4j實現同義詞檢索

2021-08-28 04:27:16 字數 519 閱讀 5239

1、基於中文分詞的基礎上加入同義詞特性

2、需要mmseg4j支援

3、如搜尋「北京」同義詞有「京城」、「帝都」等

solr官方已經提供同義詞特性,但不支援中文同義詞,需要在中文分詞的基礎上進行配置。

在原中文分詞的基礎上加入:

檔案(synonyms.txt)和schema.xml在同級目錄,solr預設有這個檔案。

示例如下,檔案:schema.xml

檔案:synonyms.txt

北京=>帝都 京城 天安門 京北

注:

1.北京 帝都 京城 天安門 京北

如上這些關鍵字必須在中文詞庫中存在,否則同義詞配置無效。

2.如上「北京」的同義詞「京城」、「帝都」不能在同義詞檔案中重複定義,否則會出現覆蓋情況。

也就說不能再配置(帝都=>北京)這樣的同義詞,否則覆蓋

solr整合mmseg4j實現中文分詞檢索

1 使用mmseg4j 1.9版本 mmseg4j core 1.9.0.jar 包括詞庫檔案 mmseg4j analysis 1.9.0.jar 是一些 analysis mmseg4j solr 1.9.0.jar 是一些 solr 使用的功能。2 將mmseg的jar放入solr web i...

solr安裝mmseg4j 分詞器

注意版本 2.拷貝jar 3.準備自定義詞庫 1.6版支援多個詞庫檔案,定義的目錄下讀到 words 字首且 dic 為字尾的檔案,如 f dic words mmseg4j.dic。新增自定義詞條,一條一行 注意,必須utf 8編碼格式 如下圖所示 4.配置schema.xml dicpath f...

solr5 0整合mmseg4j分詞器

畢竟ik跟不上搜尋引擎的步驟啊,以前用習慣了ik突然solr5.0卻沒有對應的版本 可能是我沒找到吧 這裡先用mmesg4j代替下,感覺還不錯,整合流程超級簡單,幾步就搞定 2 進入solr home目錄,建立自己的詞庫,我這裡是建立my dic資料夾,裡面放乙個words dic的檔案就行 注意,...