solr配置中文分詞器

2021-10-09 13:08:56 字數 803 閱讀 1744

/opt/solr-7.7.1/server/solr/article_core/conf資料夾下的 managed-schema檔案中配置ik中文分詞器

*測試分詞效果

* 配置停用詞 擴充套件詞 同義詞

停止詞 的功能是過濾,把「啊」加入到停止詞的字典裡,比如搜尋「你好啊」,solr會過濾掉「啊」,以「你好」去搜尋。應該叫過濾詞才好。

擴充套件詞 的功能是強制讓擴充套件詞字典裡的詞不被中文分詞器分開,叫它自定義詞也好理解。

同義詞:搜尋結果裡出現的同義詞。如我們輸入」還行」,得到的結果包括同義詞」還可以」(需修改ik原始碼,ik同義詞暫沒實現)。

加入`ikanalyzer.cfg.xml`

`ext.dic`

` stopword.dic`

三個檔案,在stopword.dic中配置你的停用詞 ext.dic中配置自定義擴充套件詞

* 在ext.dic中定義小公尺手機自定義擴充套件詞後 對`小公尺手機`四個字分詞的對比

上面為自定義`小公尺手機`擴充套件詞的分詞效果,下面為沒有定義擴充套件詞的效果

solr配置中文分詞器

可能需要連線上篇 solr與tomcat整合 將data裡的.dic檔案拷貝到dic目錄 3.修改schema.xml檔案,增加下面 注意你需要修改的是dicpath引數 fieldtype name textcomplex class solr.textfield analyzer tokeniz...

solr配置中文分詞器

一 smartcn 自 1 將自帶的jar包拷貝到tomcat下 檔案 solr 5.1.0 contrib analysis extras lucene libs lucene analyzers smartcn 5.1.0.jar 2 修改schema.xml,新增 3 測試 二 mmseg4j...

solr配置中文解析 分詞 器

前提 1 在solr中預設是沒有中文分析器的,需要手工配置。需要配置乙個fieldtype,在fieldtype中指定中文分析器。2 solr中的字段必須是先定義後使用。一 使用ik analyzer 把分析器的資料夾上傳到伺服器 root winy ik analyzer 2012ff hf1 p...