solr搜尋分詞優化

2021-08-24 17:58:14 字數 816 閱讀 9077

solr搜尋分詞優化

solr伺服器配置好在搜尋時經常會搜出無關內容,把不該分的詞給分了,導致客戶找不到自己需要的內容,那麼我們就從配置詞典入手解決這個問題。

首先需要知道自帶的詞典含義:

停止詞:停止詞是無功能意義的詞,比如is   、a   、are  、」的」,「得」,「我」 等,這些詞會在句子中多次出現卻無意義,所以在分詞的時候需要把這些詞過濾掉。

擴充套件詞庫:就是不想讓哪些詞被分開,讓他們分成乙個詞。

同義詞:假設有乙個電子商務系統,銷售書籍,提供了乙個搜尋引擎,一天,市場部的人要求客戶在搜尋書籍時,同義詞就是比如輸入「電子」,除了展示電子相關的書籍,還需要展現「機器」相關的書籍。

並修改ikanalyzer.cfg.xml如下面的格式可以配置多個停止詞或者擴充套件詞庫檔案。

ik analyzer 擴充套件配置

ext.dic;

english_stopword.dic;stopword.dic

在solr資料檔案conf目錄下schema.xml 中加入以下兩個字段:

在 schema.xml 中增加 text_syn 型別的定義:

在相同的conf目錄下的 synonyms.txt 中增加

西安,長安,13朝古都,陝西省會

那麼在下次搜尋西安時也會帶出後面的。

全域性設定不想被分詞的詞,放到停止詞庫中;

全域性設定想關聯的同義詞,放到同義詞中

Solr 分詞與搜尋

name ik cnanalyzer class solr.textfield positionincrementgap 100 type index class org.wltea.analyzer.lucene.iktokenize ctory usesmart false analyzer t...

solr 搜尋架構優化

將現在架構大小索引方式,乙個大索引有幾千萬資料 小索引幾萬資料,還有另乙個結點有三百萬左右資料,現在每天有900萬左右的請求量,已經可以達到90 以上在100ms以下響應。但還是有少許的搜尋可能達到了兩秒以上,還有乙個就是現在索引是放在共享記憶體裡,如果那天這兩台神機沒有了話就比較麻煩,這次的公升級...

搜尋引擎solr系列 solr分詞配置

分詞我理解的是,輸入的一句話,按照它自己定義的規則分為常用詞語。首先,solr有自己基本的型別,string int date long等等。對於string型別,比如在你的core conf manage schema檔案中,配置乙個字段型別為string型別,如果查詢符合 我是中國人 的資料,它...