IK分詞器安裝和測試以及配置擴充套件詞

2021-09-26 23:36:45 字數 3001 閱讀 8403

note: 預設es中採用標準分詞器進行分詞,這種方式並不適用於中文**,因此需要修改es對中文友好分詞,從而達到更加的搜尋的效果。

1. 在es安裝目錄中執行如下命令

2. 重啟es生效

note: 要求版本嚴格與當前使用版本一致,如需使用其他版本替換6.2.4為使用的版本號

[es@linux ~]$ wget

2. 解壓

[es@linux ~]$ unzip elasticsearch-analysis-ik-6.2.4.zip #先使用yum install -y unzip

3. 移動到es安裝目錄的plugins目錄中

4. 重啟es生效

note: ik分詞器提供了兩種分詞器用來做文件的分詞分別是ik_max_wordik_smart

ik_max_word 和 ik_smart 什麼區別?

ik_max_word: 會將文字做最細粒度的拆分,比如會將「中華人民共和國國歌」拆分為「中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌」,會窮盡各種可能的組合;

ik_smart: 會做最粗粒度的拆分,比如會將「中華人民共和國國歌」拆分為「中華人民共和國,國歌」。

測試資料
delete

/ems

put/ems

,"age":,

"bir":,

"content":,

"address":}

}}}put

/ems/emp/_bulk }

}}}}

}

直接在kibana中測試:

get

/ems/emp/_search},

"highlight":}

}}

ik支援自定義擴充套件詞典停用詞典,所謂**擴充套件詞典如何定義擴充套件詞典和停用詞典可以修改ik分詞器中config目錄中ikanalyzer.cfg.xml這個檔案。

note:詞典的編碼必須為utf-8,否則無法生效

1. 修改vim ikanalyzer.cfg.xml

<?xml version="1.0" encoding="utf-8"?>

>

>

ik analyzer 擴充套件配置comment

>

key=

"ext_dict"

>

ext_dict.dicentry

>

key=

"ext_stopwords"

>

ext_stopword.dicentry

>

properties

>

2. 在ik分詞器目錄下config目錄中建立ext_dict.dic檔案 編碼一定要為utf-8才能生效

vim ext_dict.dic 加入擴充套件詞即可

3. 在ik分詞器目錄下config目錄中建立ext_stopword.dic檔案

vim ext_stopword.dic 加入停用詞即可

4.重啟es生效

ik分詞器安裝

官方demo es中plugins最終結果 es中conf analysis ik的最終結果 執行 plugin安裝 1.查詢es程序 ps ef grep elastic 2.殺掉es程序 kill 9 2382 程序號 3.重啟es sh elasticsearch d 1.通過rest方式建立...

ik分詞器安裝

lucene的ik分詞器早在2012年已經沒有維護了,現在我們要使用的是在其基礎上維護公升級的版本,並且開發為elasticsearch的整合外掛程式了,與elasticsearch一起維護公升級,版本也保持一致,最新版本 6.3.0 上傳課前資料中的zip包,解壓到elasticsearch目錄的...

Solr配置IK分詞器

上傳檔案 檢視 新增配置檔案 建立classes 複製檔案 ikanalyzer.cfg.xml ext stopword.dic mydict.dic 新增分詞器,配置業務域 定義fieldtype,指定使用中文分詞器 在solrhome中定義 solrconfig.xml,用於配置solr服務 ...