Solr之分詞器過濾器與分析器

下面來記錄並分享下solr的分詞器、過濾器、分析器器的用法：

一、分詞器

可通過schema.xml檔案自定義分詞器。

自定義分詞器，需要自己寫乙個factory，它必須是basetokenize***ctory的子類，例如：

public class zertest extends basetokenize***ctory

二、過濾器

對於乙個document進行索引時，其中的每個field中的資料都會經歷分析，分析就是組合分詞和過濾，最終將一句話分成單個的單詞，去掉句子中的空白符號，大寫轉小寫，複數轉單數，去掉多餘的詞，進行同義詞代換等。

自定義過濾器，需要自己寫乙個factory，它必須是basetokenfilte***ctory的子類，例如：

public class filtertest extends basetokenfilte***ctory

三、分析器

分析器包括分析器和過濾器兩部分。分詞功能將句子分成單個的詞元token，過濾器就是對詞元進行過濾。

schema.xml檔案允許兩種方式修改文字被分析的方式，通常只有field型別為solr.textfield的field的內容允許定製分析器。

1）方法一：

使用任何org.apache.lucene.analysis.analyzer的子類進行設定：

2）方法二：

指定乙個tokenize***ctory,後面跟一系列的tokenfilte***ctories（它們按照所列的順序發生作用）。facotries被用來建立分詞器和過濾器。它們用於分詞器和過濾器的準備配置。

ps：對於org.apache.solr.analysis.*包下的類，僅僅通過solr.*就可以進行指定

Solr之分詞器 過濾器與分析器