elasticsearch 安裝 ik中文分詞器

2021-09-27 11:47:04 字數 1994 閱讀 8121

wget
zip包裡面的檔案結構如下:

備註:

mvn package
打包完成後在 \target\releases 目錄下就能夠看到相同的檔案結構了

config資料夾裡面的內容是分詞器分詞時讀取檔案的主要目錄,大概說說裡面的各檔案內容

ikanalyzer.cfg.xml:用來配置自定義詞庫

main.dic:ik原生內建的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一起

suffix.dic:放了一些字尾

surname.dic:中國的姓氏

stopword.dic:英文停用詞

ik原生最重要的兩個配置檔案

main.dic:包含了原生的中文詞語,會按照這個裡面的詞語去分詞

stopword.dic:包含了英文的停用詞

2,解壓 elasticsearch-analysis-ik-6.2.1.zip

unzip elasticsearch-analysis-ik-6.2.1.zip
便於區分修改解壓後的資料夾名稱為 elasticsearch-analysis-ik-6.2.1

mv elasticsearch elasticsearch-analysis-ik-6.2.1
3,將解壓後的資料夾移動到es的plugins目錄下

mv elasticsearch-analysis-ik-6.2.1 /usr/local/elasticsearch-6.2.1/plugins/
4,重啟es5,ik 分詞器測試假如我們直接使用 standard 對中文進行分詞看看有什麼效果,執行如下語句

結果:

很明顯,被分成了乙個個單一的詞,顯然這並不是我們想要的效果,因為單個詞彙在文件搜尋中意義並不大

安裝了中文分詞器後,我們再來做如下測試,執行如下語句,指定ik分詞器:

結果:

這時候ik分詞器將我們的一段句子拆分成了不同長度的詞彙,看起來合理多了

最後在使用ik分詞器搜尋一下資料,看看是不是想要的結果

可以看到這個時候就已經按照問我們想要的分詞結果查詢出來了資料,到此,大功告成

match 搜尋key會被分詞,搜尋的filed中的值是分了詞,然後再匹配

term 精確匹配輸入的引數(不使用分析器)

wildcard 沒用過

prefix 字首匹配

fuzzy 模糊匹配

range 範圍匹配 匹配數值型別,比如說對於使用者樣本搜尋,年齡範圍在20~30之間的,就用range。

query_string 查詢text型別的字段

text 文字型別,文字型別可以設定分詞器屬性

missing 是否存在該字段值 和exists反義

ElasticSearch 服務安裝

新版本的 elasticsearch 需要的 jdk 版本較高.公司預設提供現在最新能到1.7.45版本因此需要公升級 jdk 具體公升級 jdk.見dev 環境 jdk 公升級備忘 官網 命令 download elasticsearch sudo wget2.2 拷貝歸檔包到 q 目錄 copy...

elasticsearch安裝部署

修改vi config elasticsearch.yml network.host 127.0.0.1 即可通過ip 訪問,驗證可用性 cd bin elasticsearch 瀏覽器訪問 即可 安裝marvel 外掛程式方便除錯 elasticsearch 外掛程式安裝 cd elasticse...

ElasticSearch 安裝啟動

2 解壓到當前目錄 tar zxvf elasticsearch 7.1.1.tar.gz3 es配置檔案,幾乎不用什麼更改,大部分都是預設就可以。配置檔案裡有 集群配置 節點配置 路徑配置 記憶體配置 網路配置 集群節點發現引數 等配置資訊。進入 elasticsearch config目錄,使用...