ElasticSearch中文分詞(二)

2021-10-02 18:51:36 字數 1326 閱讀 8864

1、中文分詞

中文分詞的難點在於,在漢語中沒有明顯的詞彙分界點,如在英語中,空格可以作為分隔符,如果分隔不正確就會造成歧義。

常用中文分詞器,ik、jieba、thulac等,推薦使用ik分詞器。

目錄下即可。

#如果使用docker執行

docker cp elasticsearch-analysis-ik-6.5.4.zip elasticsearch:/usr/share/elasticsearch/plugins/

#進入容器

docker exec -it elasticsearch /bin/bash

mkdir /usr/share/elasticsearch/plugins/ik

cd /usr/share/elasticsearch/plugins/ik

unzip elasticsearch-analysis-ik-6.5.4.zip

#重啟容器即可

docker restart elasticsearch 測試

post 

自定義詞彙

進入容器

docker exec -it elasticsearch /bin/bash
進入容器的config目錄下

建立乙個自定義檔案my.dic, 並寫入一些內容

開啟ikanalyzer.cfg.xml

ikanalyzer.cfg.xml
寫入內容

my.dic
退出並重啟容器

測試

post  

熱更新ik分詞的方法

github上的截圖

加入 一條資料

post 

測試查詢資料

post }},

"highlight": }}}

結果如下

elasticsearch中文分詞

首先來一篇大神的文章 這篇文章已經介紹的比較清楚了,我看完之後還是有一些小小的疑惑。首先總結一下實現中文分詞關鍵點 在elasticsearch的配置檔案elasticsearch.yml中配置預設的分詞器 index.analysis.analyzer.default.type ik 如果配置檔案...

Elasticsearch 使用中文分詞

本文演示了如何使用ik analysis 外掛程式來實現在 elasticsearch 中的中文分詞功能。在 spring boot應用企業級部落格系統 課程中 所有的部落格功能都已經完成了。讀者朋友們開始愉快地使用部落格來發表部落格了。但如果朋友們足夠細心的話,發現在輸入中文的標籤的時候,存在一定...

Mac安裝elasticsearch中文分詞器

tagline you know,for search 宣告 我的es版本是6.8.1 找到對應es的版本 找到es的plugins目錄 mv 當前檔案路徑 移動檔案目錄 mv downloads elasticsearch analysis ik 6.8.zip usr local var ela...