Solr之分詞器 過濾器與分析器

2021-09-24 20:18:21 字數 941 閱讀 7038

下面來記錄並分享下solr的分詞器、過濾器、分析器器的用法:

一、分詞器

可通過schema.xml檔案自定義分詞器。

自定義分詞器,需要自己寫乙個factory,它必須是basetokenize***ctory的子類,例如:

public class zertest extends basetokenize***ctory
二、過濾器

對於乙個document進行索引時,其中的每個field中的資料都會經歷分析,分析就是組合分詞和過濾,最終將一句話分成單個的單詞,去掉句子中的空白符號,大寫轉小寫,複數轉單數,去掉多餘的詞,進行同義詞代換等。

自定義過濾器,需要自己寫乙個factory,它必須是basetokenfilte***ctory的子類,例如:

public class filtertest extends basetokenfilte***ctory
三、分析器

分析器包括分析器和過濾器兩部分。分詞功能將句子分成單個的詞元token,過濾器就是對詞元進行過濾。

schema.xml檔案允許兩種方式修改文字被分析的方式,通常只有field型別為solr.textfield的field的內容允許定製分析器。

1)方法一:

使用任何org.apache.lucene.analysis.analyzer的子類進行設定:

2)方法二:

指定乙個tokenize***ctory,後面跟一系列的tokenfilte***ctories(它們按照所列的順序發生作用)。facotries被用來建立分詞器和過濾器。它們用於分詞器和過濾器的準備配置。

ps:對於org.apache.solr.analysis.*包下的類,僅僅通過solr.*就可以進行指定

Solr分詞器 過濾器 分析器。

對乙個document進行索引時,其中的每個field中的資料都會經歷分析 分析就是組合分詞和過濾 最終將一句話分成單個的單詞,去掉句子當中的空白符號,大寫轉換小寫,複數轉單數,去掉多餘的詞,進行同義詞代換等等。如 this is a blog this,is,a會被去除,最後剩下blog。當然 這...

solr英文使用的基本分詞器和過濾器配置

solr英文應用的基本分詞器和過濾器配置 英文應用分詞器和過濾器一般配置順序 索引 index 1 空格whitespacetokenizer 2 過濾詞 停用詞,如 on of a an等 stopfilter 3 拆字worddelimiterfilter 4 小寫過濾lowercasefilt...

CAN 遮蔽器與濾波器 過濾器

識別符號必須與節點的識別符號一致的時候,報文才會接收,報文的接收需要經過遮蔽器與濾波器 其中遮蔽器的作用是用來決定濾波器中的哪些位必須要使接收到報文的識別符號與濾波器的相應位保持一致。假設遮蔽器的第三位為1,則要求,濾波器的第三位必須與接收到的報文的第三位一致才能把報文接收,如果遮蔽器的第三位為0,...