配置分析器

2021-08-17 06:56:00 字數 776 閱讀 9226

第三個重要的索引設定是analysis部分,

用來配置已存在的分析器或針對你的索引建立新的自定義分析器。

在 分析與分析器 ,我們介紹了一些內建的

分析器,用於將全文本串轉換為適合搜尋的倒排索引。

standard分析器是用於全文本段的預設分析器,

對於大部分西方語系來說是乙個不錯的選擇。 

它包括了以下幾點:

預設情況下,停用詞過濾器是被禁用的。如需啟用它,你可以通過建立乙個基於standard分析器的自定義分析器並設定stopwords引數。 可以給分析器提供乙個停用詞列表,或者告知使用乙個基於特定語言的預定義停用詞列表。

在下面的例子中,我們建立了乙個新的分析器,叫做es_std, 並使用預定義的

西班牙語停用詞列表:

/spanish_docs}}

}}es_std分析器不是全域性的--它僅僅存在於我們定義的spanish_docs索引中。 為了使用analyzeapi來對它進行測試,我們必須使用特定的索引名:

/spanish_docs

/_analyze

?analyzer

=es_std

elveloz zorro marrón

簡化的結果顯示西班牙語停用詞el已被正確的移除:

"tokens":[

,,]}

分析與分析器

分析 包含下面的過程 分析器執行上面的工作。分析器 實際上是將三個功能封裝到了乙個包裡 字元過濾器 首先,字串按順序通過每個 字元過濾器 他們的任務是在分詞前整理字串。乙個字元過濾器可以用來去掉html,或者將 轉化成 and 分詞器其次,字串被 分詞器分為單個的詞條。乙個簡單的分詞器遇到空格和標點...

詞法分析器

這是我自己的第一篇部落格,就分享一下最近才做完的編譯原理實驗,詞法分析器。本次實驗中我用mysql資料庫儲存自動機狀態表,這樣做的目的只是為了在後續的課設中可以繼續使用現在的 這一段 並不是太完善,發出來只是為了太完善。裡面還有很多問題,比如對字元和字串的識別,不知道為什麼資料庫無法將 和 轉換到我...

詞法分析器

include using namespace std const int maxn 1e3 10 int n 輸入文字的行數 char buffer maxn maxn 緩衝區 int len maxn 輸入文字每行的列數 struct out 輸出格式 out string a,int b re...