Solr整合Ansj中文分詞器

2021-08-04 07:31:11 字數 2535 閱讀 3645

參考   配置和solr和tomcat的

ansj資料:

2、複製ansj相關檔案到solr專案中

1)將ansj_seg-2.0.8.jar、nlp-lang-0.2.jar和solr-analyzer-ansj-5.1.0.jar放到solr專案中

2)將library.properties、libary目錄和stopwords目錄放置到solr專案中

放置目錄:

[root@iz23exixsjaz classes]# pwd

[root@iz23exixsjaz classes]#

lslibrary library.properties log4j.properties stopwords

[root@iz23exixsjaz classes]#

3)配置library.properties

按照自己的實際路徑配置。

[root@iz23exixsjaz classes]# vi

library.properties

#redress dic

file

path

#path of userlibrary this is default library

#set real name

isrealname=true

3、在solr_home下建立乙個collection

1)建立乙個collection叫collection1

[root@iz23exixsjaz solr_home]# pwd

/luxh/solr/solr_home

[root@iz23exixsjaz solr_home]#

mkdir collection1

2)拷貝/solr-5.3.1/server/solr/configsets/basic_configs下的內容到新建的collection1中

[root@iz23exixsjaz basic_configs]# pwd

/luxh/solr/solr-5.3.1/server/solr/configsets/basic_configs

[root@iz23exixsjaz basic_configs]#

cp -r ./*

/luxh/solr/solr_home/collection1/

4、配置collection1中的schema.xml,加入ansj分詞配置

[root@iz23exixsjaz conf]# pwd

/luxh/solr/solr_home/collection1/conf

[root@iz23exixsjaz conf]#

lscurrency.xml lang protwords.txt _rest_managed.json schema.xml solrconfig.xml stopwords.txt synonyms.txt

[root@iz23exixsjaz conf]#

vi schema.xml

加入如下內容:

"

text_ansj

" class="

solr.textfield

">

"index

">

"org.apache.lucene.analysis.ansj.ansjtokenize***ctory

"query="

false

" pstemming="

true

" stopwordsdir="

stopwords/stopwords.dic

"/>

"query

">

"org.apache.lucene.analysis.ansj.ansjtokenize***ctory

"query="

true

" pstemming="

false

"/>

5、啟動tomcat

[root@iz23exixsjaz apache-tomcat-8.0.29]# bin/startup.sh
6、通過 http://你的ip:8080/solr/admin.html        add core

instancedir指向剛才建立的collection1

7、測試

1)英文

2)中文

solr配置中文分詞器

可能需要連線上篇 solr與tomcat整合 將data裡的.dic檔案拷貝到dic目錄 3.修改schema.xml檔案,增加下面 注意你需要修改的是dicpath引數 fieldtype name textcomplex class solr.textfield analyzer tokeniz...

solr配置中文分詞器

一 smartcn 自 1 將自帶的jar包拷貝到tomcat下 檔案 solr 5.1.0 contrib analysis extras lucene libs lucene analyzers smartcn 5.1.0.jar 2 修改schema.xml,新增 3 測試 二 mmseg4j...

solr 引入中文分詞器

ik analyzer 擴充套件配置 ext.dic my ext stopword.dic ext.dic 存放同義詞 厲害了我的國 相同,相似,相近 電腦,膝上型電腦 計算機 my ext stopword.dic 存放停用詞 的地了 你我他它 不嗯需要引入的jar 配置solrconfig.x...