solr搜尋分詞優化

solr伺服器配置好在搜尋時經常會搜出無關內容，把不該分的詞給分了，導致客戶找不到自己需要的內容，那麼我們就從配置詞典入手解決這個問題。

首先需要知道自帶的詞典含義：

停止詞：停止詞是無功能意義的詞，比如is 、a 、are 、」的」，「得」，「我」等，這些詞會在句子中多次出現卻無意義，所以在分詞的時候需要把這些詞過濾掉。

擴充套件詞庫：就是不想讓哪些詞被分開，讓他們分成乙個詞。

同義詞：假設有乙個電子商務系統，銷售書籍，提供了乙個搜尋引擎，一天，市場部的人要求客戶在搜尋書籍時，同義詞就是比如輸入「電子」，除了展示電子相關的書籍，還需要展現「機器」相關的書籍。

並修改ikanalyzer.cfg.xml如下面的格式可以配置多個停止詞或者擴充套件詞庫檔案。

ik analyzer 擴充套件配置
ext.dic;
english_stopword.dic;stopword.dic

在solr資料檔案conf目錄下schema.xml 中加入以下兩個字段：

在 schema.xml 中增加 text_syn 型別的定義：

在相同的conf目錄下的 synonyms.txt 中增加

西安，長安，13朝古都，陝西省會

那麼在下次搜尋西安時也會帶出後面的。

全域性設定不想被分詞的詞，放到停止詞庫中；

全域性設定想關聯的同義詞，放到同義詞中

Solr 分詞與搜尋

name ik cnanalyzer class solr.textfield positionincrementgap 100 type index class org.wltea.analyzer.lucene.iktokenize ctory usesmart false analyzer t...

solr 搜尋架構優化

將現在架構大小索引方式，乙個大索引有幾千萬資料小索引幾萬資料，還有另乙個結點有三百萬左右資料，現在每天有900萬左右的請求量，已經可以達到90 以上在100ms以下響應。但還是有少許的搜尋可能達到了兩秒以上，還有乙個就是現在索引是放在共享記憶體裡，如果那天這兩台神機沒有了話就比較麻煩，這次的公升級...

搜尋引擎solr系列 solr分詞配置

分詞我理解的是，輸入的一句話，按照它自己定義的規則分為常用詞語。首先，solr有自己基本的型別，string int date long等等。對於string型別，比如在你的core conf manage schema檔案中，配置乙個字段型別為string型別，如果查詢符合我是中國人的資料，它...

solr搜尋分詞優化

Solr 分詞與搜尋

solr 搜尋架構優化

搜尋引擎solr系列 solr分詞配置

相關推薦