solr英文應用的基本分詞器和過濾器配置
英文應用分詞器和過濾器一般配置順序
索引(index):
1:空格whitespacetokenizer
2:過濾詞(停用詞,如:on、of、a、an等)stopfilter
3:拆字worddelimiterfilter
4:小寫過濾lowercasefilter
5:英文相近詞englishporterfilter
6:去除重複詞removeduplicatestokenfilter
查詢(query):(首先也是加入分詞方法)
1:查詢同義詞synonymfilter
2:過濾詞stopfilter
3:拆字worddelimiter
4:小寫過濾lowercasefilter
5:英文相近詞englishporterfilter
6:去除重複詞removeduplicatestokenfilter
示例配置如下:
這樣配置以後,字段型別為「text」的就會有以上的一些處理,如下,name就會有以上的處理了。
solr4 10 2及中文分詞器的使用
轉眼間lucene已發布到版本4了,想起07年使用lucene時,還是1點幾的版本,那時公司買了本lucene in action中文版,我把它當寶一樣,立馬捧在手頭,翻閱兩遍。從那後,很少在用lucene,但時常也在關注,原理還是一致,只是增了很多特性與改進。現在開發的產品需要使用搜尋功能,luc...
solr5 2 1之IK分詞器的配置
1 定義型別 或者使用下面的方式 2 使用型別 3 如果要自定義詞庫時,需要執行這步驟。1 準備ikanalyzer.cfg.xml配置檔案 ik analyzer 擴充套件配置 ext.dic stopword.dic jdbc mysql root 123456 t tict seq no 60...
只針對中英文混合分詞的中文分詞器
該版本說明 1 只針對中英文混合分詞 需要一些中文和英文連在一起 設定如下 utility.seperatop e 1234567890公升級到 例子 worker work new worker utility.seperatop e 1234567890公升級到年月號m string resul...