solr 實現 中文分詞,IK Analyzer

2021-07-10 04:56:23 字數 1741 閱讀 2378

solr

預設是不支援中文分詞的,這樣就需要我們手工配置中文分詞器,在這裡我們選用

ik analyzer

中文分詞器。

ik analyzer

如圖:

solr

,在這裡我們使用

solr 4.10.4

版本試驗環境

centos 6.5

,jdk1.7

整合步驟

1ik analyzer_2012_ff_hf1.zip

壓縮包,把

ikanalyzer2012ff_u1.jar

拷貝到目錄下2:在

目錄下建立目錄

classes

,然後把

ikanalyzer.cfg.xml

和stopword.dic

拷貝到新建立的

classes

目錄下即可。

3:修改

solr core

的schema

檔案,預設是

solr-4.10.4/example/solr/collection1/conf/schema.xml,

新增如下配置

4:啟動

solr

,bin/solr start

5:進入

solr web

介面http://localhost:8983/solr,

看到下圖操作結果即為配置成功

到現在為止,

solr

就和ik analyzer

中文分詞器整合成功了。

但是,如果我想自定義一些詞庫,讓

ik分詞器可以識別,那麼就需要自定義擴充套件詞庫了。

操作步驟:

1:修改

目錄下的

ikanalyzer.cfg.xml

配置檔案,配置如下

<?xml version="1.0" encoding="utf-8"?>

ik analyzer 擴充套件配置

ext.dic;

stopword.dic;

注意字典的格式,是一行寫乙個詞

2:新建

ext.dic

檔案(擴充套件字典

),在裡面新增如下內容

(注意:

ext.dic

的編碼必須是

encode in utf-8 without bom,

否則自定義的詞庫不會被識別)

超人學院

3:新建stopword.dic(

擴充套件停止詞字典,即以該詞為分界線分詞

),在裡面新增 中國

中華人民

:重啟solr4:在

solr web

介面進行如下操作,看到圖中操作結果即為配置成功。

solr 配置中文分詞

要在中文的專案中使用 solr 少不了要整合中文分詞元件。本篇以 ik2012 分詞為例,講解如何在 solr 3.5 中及整合中文分詞,使用 ik 的原因 ik 比其他中文分詞維護的勤快,和 solr 整合也相對容易。fieldtypename text zh class solr.textfie...

安裝solr中文分詞系統

solr是乙個國外的開源專案,要想solr能處理中文,必須安裝中文分詞系統,步驟如下 3.拷貝mmseg4j的jar包到solr目錄裡 4.增加詞庫 mkdir p opt solr tomcat solr dic unzip data.zip cp data dic opt solr tomcat...

solr配置中文分詞器

可能需要連線上篇 solr與tomcat整合 將data裡的.dic檔案拷貝到dic目錄 3.修改schema.xml檔案,增加下面 注意你需要修改的是dicpath引數 fieldtype name textcomplex class solr.textfield analyzer tokeniz...