自定義分析器

雖然elasticsearch帶有一些現成的分析器，然而在分析器上elasticsearch真正的強大之處在於，你可以通過在乙個適合你的特定資料的設定之中組合字元過濾器、分詞器、詞彙單元過濾器來建立自定義的分析器。

在分析與分析器我們說過，乙個分析器

就是在乙個包裡面組合了三種函式的乙個包裝器，

三種函式按照順序被執行:

字元過濾器

字元過濾器用來整理乙個尚未被分詞的字串。例如，如果我們的文字是html格式的，它會包含像或者這樣的html標籤，這些標籤是我們不想索引的。我們可以使用html清除字元過濾器來移除掉所有的html標籤，並且像把á轉換為相對應的unicode字元á這樣，轉換html實體。

乙個分析器可能有0個或者多個字元過濾器。

分詞器乙個分析器必須

有乙個唯一的分詞器。

分詞器把字串分解成單個詞條或者詞彙單元。標準分析器裡使用的標準分詞器

把乙個字串根據單詞邊界分解成單個詞條，並且移除掉大部分的標點符號，然而還有其他不同行為的分詞器存在。

詞單元過濾器

經過分詞，作為結果的詞單元流

會按照指定的順序通過指定的詞單元過濾器。

詞單元過濾器可以修改、新增或者移除詞單元。我們已經提到過lowercase和stop詞過濾器，但是在 elasticsearch 裡面還有很多可供選擇的詞單元過濾器。詞幹過濾器把單詞遏制為詞幹。ascii_folding過濾器移除變音符，把乙個像"très"這樣的詞轉換為"tres"。ngram和edge_ngram詞單元過濾器可以產生

適合用於部分匹配或者自動補全的詞單元。

在深入搜尋，我們討論了在**使用，以及怎樣使用分詞器和過濾器。但是首先，我們需要解釋一下怎樣建立自定義的分析器。

和我們之前配置

es_std分析器一樣，我們可以在analysis下的相應位置設定字元過濾器、分詞器和詞單元過濾器:

/my_index

,"tokenizer":,

"filter":,

"analyzer":}

}}作為示範，讓我們一起來建立乙個自定義分析器吧，這個分析器可以做到下面的這些事:

使用html清除字元過濾器移除html部分。

使用乙個自定義的對映字元過濾器把&替換為" 和 "：:}

使用標準分詞器分詞。

小寫詞條，使用小寫詞過濾器處理。

使用自定義停止詞過濾器移除自定義的停止詞列表中包含的詞：:}

我們的分析器定義用我們之前已經設定好的自定義過濾器組合了已經定義好的分詞器和過濾器：:}

彙總起來，完整的建立索引請求看起來應該像這樣：

/my_index

},"filter":},

"analyzer":}

}}}索引被建立以後，使用analyzeapi 來

測試這個新的分析器：

/my_index

/_analyze

?analyzer

=my_analyzer

thequick

&brown fox

下面的縮略結果展示出我們的分析器正在正確地執行：

"tokens":[

,,,]

}這個分析器現在是沒有多大用處的，除非我們告訴

elasticsearch在**用上它。我們可以像下面這樣把這個分析器應用在乙個string欄位上：

/my_index//

my_type}}

自定義分析器

ElasticSearch 自定義分析器

antd自定義分頁器自定義分頁器例項

自定義分頁器

自定義分析器

ElasticSearch 自定義分析器

antd自定義分頁器 自定義分頁器例項

自定義分頁器

相關推薦

antd自定義分頁器自定義分頁器例項