elasticsearch ik分詞器安裝配置

2021-08-17 02:12:36 字數 1260 閱讀 5795

es原生的分詞器挺好,不過為了更好,分更多的詞我們還是需要安裝ik分詞器滴,怎麼安裝吶,之前一直挺不想安裝這個分詞的,今天終究還是安了,沒想到竟然 這麼簡單!!!

首先,進入es的bin目錄下

./elasticsearch-plugin install
注意版本!!!各個節點都要安裝吧~

安裝之後重啟es,不知道是不是x-pack的原因,主節點宕了,我起來之後,還是宕的狀態,一直重新整理kibana——好了(欠刷)

分詞的配置檔案是個核心,6.1.2的版本配置檔案在

*/elasticsearch-6.1.2/config/analysis-ik

中,全部都在這裡

ikanalyzer.cfg

.xml:用來配置自定義詞庫

main.dic:ik原生內建的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一起

suffix.dic:放了一些字尾

surname.dic:中國的姓氏

stopword.dic:英文停用詞

ik原生最重要的兩個配置檔案:

main.dic:包含了原生的中文詞語,會按照這個裡面的詞語去分詞

stopword.dic:包含了英文的停用詞

停用詞,stopword:a the and at but

停用詞,會在分詞的時候,不會建立在倒排索引中

自定義詞庫

自定義詞庫

(1)自己建立詞庫:每年都會湧現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,自己的style,balance,battle一下,一般不會在ik的原生詞典裡

自己補充自己的最新的詞語,到ik的詞庫裡面去

ikanalyzer.cfg

.xml:ext_dict,custom/mydict.dic

補充自己的詞語,然後需要重啟es,才能生效

(2)自己建立停用詞庫:比如了,的,啥,麼,我們可能並不想去建立索引,讓人家搜尋

custom/ext_stopword.dic,已經有了常用的中文停用詞,可以補充自己的停用詞,然後重啟es

ikanalyzer.cfg.xml這個檔案在*/elasticsearch-6.1.2/config/analysis-ik目錄下,都在一塊、團結的大家庭

小結:

就分詞而言:感覺吧es比solr好用,個人感覺,以後可能會改變觀點也不一定。

ElasticSearch IK中文分詞器的配置

elasticsearch本身自帶的中文分詞,就是單純把中文乙個字乙個字的分開,根本沒有詞彙的概念。但是實際應用中,使用者都是以詞彙為條件,進行查詢匹配的,如果能夠把文章以詞彙為單位切分開,那麼與使用者的查詢條件能夠更貼切的匹配上,查詢速度也更加快速。1.安裝 然後重啟es 2.測試使用 使用預設 ...

Elasticsearch ik分詞器的配置和使用

2.解壓包解壓出來乙個名為elasticsearch的資料夾如下圖 3.將 elasticsearch 資料夾重新命名為ik 4.將ik資料夾放入 elasticsearch目錄的plugins資料夾下即可 如下圖所示 5.在瀏覽器輸入 text 我是程式設計師 ik分詞器貼合中文 列如 我是程式設...

安裝中文分詞器

2.複製ikanalyzer的配置檔案和自定義詞典和停用詞詞典到solr的classpath下。也就是在solr的web inf目錄下建立classes資料夾 拷入的檔案有 ext.dic ikanalyzer.cfg.xml stopword.dic 3.在solrhome collection1...