Elasticsearch整合IK中文分詞器

2021-09-13 16:59:23 字數 2672 閱讀 3666

因為我安裝的 elasticsearch 是5.6.9版本,所以對應安裝 elasticsearch-analysis-ik-5.6.9 版本

$ ./bin/elasticsearch-plugin install
$ cp /mnt/hgfs/elasticsearch-analysis-ik-5.6.9/elasticsearch/ /opt/elasticsearch-5.6.9/plugins/ -r
啟動過程中會列印日誌loaded plugin [analysis-ik]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice     ] [_jhotaz] loaded module [aggs-matrix-stats]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [ingest-common]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [lang-expression]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [lang-groovy]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [lang-mustache]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [lang-painless]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [parent-join]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [percolator]

[2018-06-15t09:30:34,671][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [reindex]

[2018-06-15t09:30:34,672][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [transport-netty3]

[2018-06-15t09:30:34,672][info ][o.e.p.pluginsservice ] [_jhotaz] loaded module [transport-netty4]

[2018-06-15t09:30:34,672][info ][o.e.p.pluginsservice ] [_jhotaz] loaded plugin [analysis-ik] # 出現這行,則說明載入ik分詞器外掛程式成功

[2018-06-15t09:30:37,398][info ][o.e.d.discoverymodule ] [_jhotaz] using discovery type [zen]

[2018-06-15t09:30:38,365][info ][o.e.n.node ] initialized

[2018-06-15t09:30:38,365][info ][o.e.n.node ] [_jhotaz] starting ...

重啟

$ jps #檢視pid

$ kill pid

$ ./bin/elasticsearch -d # 後台執行

教程:

elasticsearch內建分詞器:

standard (標準分詞器):無腦的乙個乙個詞(漢字)切分,所以適用範圍廣,但是精準度低。

english (英文分詞):對英文更加智慧型,可以識別單數負數,大小寫,過濾stopwords(例如「the」這個詞)等。

chinese (中文分詞):效果很差。

ik的兩種分詞方式

ik_max_word

會將文字做最細粒度的拆分,比如會將「中華人民共和國國歌」拆分為「中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌」,會窮盡各種可能的組合;

ik_smart

會做最粗粒度的拆分,比如會將「中華人民共和國國歌」拆分為「中華人民共和國,國歌」。

# 新建test索引

$ curl -xput ''

# 驗證 ik_max_word 的分詞效果

$ curl '/_analyze?analyzer=ik_max_word&pretty=true' -d ''

# 驗證 ik_smart 的分詞效果

$ curl '/_analyze?analyzer=ik_smart&pretty=true' -d ''

整合之路 IBM Portal wcm整合

門戶作為一站式解決方案,其核心的價值在於整合企業內部資源。如何去整合企業內部的各應用系統?這個問題是一直是做整合實現的人應該考慮的事.既於自己的工作經驗及看法,把這個整合之路,分為三個階段 資訊整合 介面 資料整合 流程整合。一 資訊整合,所謂資訊整合就是把應用系統的展示資訊的頁面展現到門戶的頁面來...

整合sleuth 整合Sleuth

sleuth是 springcloud 分布式跟蹤解決方案。sleuth 術語 跨度 span sleuth 的基本工作單元,他用乙個64位的id唯一標識。出id外,span還包含 其他的資料,如 描述,時間戳事件,鍵值對註解等,spanid span父id等。trace 跟蹤 一組span組成的樹...

elasticsearch配置詳解

elasticsearch的config資料夾裡面有兩個配置檔案 elasticsearch.yml和logging.yml,第乙個是es的基本配置檔案,第二個是日誌配置檔案,es也是使用log4j來記錄日誌的,所以logging.yml裡的設定按普通log4j配置檔案來設定就行了。下面主要講解下e...