solr英文使用的基本分詞器和過濾器配置

2022-05-27 06:57:12 字數 819 閱讀 7464

solr英文應用的基本分詞器和過濾器配置

英文應用分詞器和過濾器一般配置順序

索引(index):

1:空格whitespacetokenizer

2:過濾詞(停用詞,如:on、of、a、an等)stopfilter

3:拆字worddelimiterfilter

4:小寫過濾lowercasefilter

5:英文相近詞englishporterfilter

6:去除重複詞removeduplicatestokenfilter

查詢(query):(首先也是加入分詞方法)

1:查詢同義詞synonymfilter

2:過濾詞stopfilter

3:拆字worddelimiter

4:小寫過濾lowercasefilter

5:英文相近詞englishporterfilter

6:去除重複詞removeduplicatestokenfilter

示例配置如下:

這樣配置以後,字段型別為「text」的就會有以上的一些處理,如下,name就會有以上的處理了。

solr4 10 2及中文分詞器的使用

轉眼間lucene已發布到版本4了,想起07年使用lucene時,還是1點幾的版本,那時公司買了本lucene in action中文版,我把它當寶一樣,立馬捧在手頭,翻閱兩遍。從那後,很少在用lucene,但時常也在關注,原理還是一致,只是增了很多特性與改進。現在開發的產品需要使用搜尋功能,luc...

solr5 2 1之IK分詞器的配置

1 定義型別 或者使用下面的方式 2 使用型別 3 如果要自定義詞庫時,需要執行這步驟。1 準備ikanalyzer.cfg.xml配置檔案 ik analyzer 擴充套件配置 ext.dic stopword.dic jdbc mysql root 123456 t tict seq no 60...

只針對中英文混合分詞的中文分詞器

該版本說明 1 只針對中英文混合分詞 需要一些中文和英文連在一起 設定如下 utility.seperatop e 1234567890公升級到 例子 worker work new worker utility.seperatop e 1234567890公升級到年月號m string resul...