快速學習 IK分詞器

2021-10-01 23:37:31 字數 1324 閱讀 4735

在新增文件時會進行分詞,索引中存放的就是乙個乙個的詞(term),當你去搜尋時就是拿關鍵字去匹配詞,最終找到詞關聯的文件。

測試當前索引庫使用的分詞器:

post 傳送:localhost:9200/_analyze

結果如下:

會發現分詞的效果將 「測試」 這個詞拆分成兩個單字「測」和「試」,這是因為當前索引庫使用的分詞器對中文就是單字 分詞。

使用ik分詞器可以實現對中文分詞的效果。

測試分詞效果:

傳送:post localhost:9200/_analyze

ik分詞器有兩種分詞模式:ik_max_word和ik_smart模式。

1、ik_max_word

會將文字做最細粒度的拆分,比如會將「中華人民共和國人民大會堂」拆分為「中華人民共和國、中華人民、中華、 華人、人民共和國、人民、共和國、大會堂、大會、會堂等詞語。

2、ik_smart

會做最粗粒度的拆分,比如會將「中華人民共和國人民大會堂」拆分為中華人民共和國、人民大會堂。 測試兩種分詞模式:

傳送:post localhost:9200/_analyze

如果要讓分詞器支援一些專有詞語,可以自定義詞庫。

ik分詞器自帶乙個main.dic的檔案,此檔案為詞庫檔案。

在上邊的目錄中新建乙個my.dic檔案(注意檔案格式為utf-8(不要選擇utf-8 bom))

可以在其中自定義詞彙:

比如定義:

配置檔案中配置my.dic,

重啟es,測試分詞效果:

傳送:post localhost:9200/_analyze

ik分詞器安裝

官方demo es中plugins最終結果 es中conf analysis ik的最終結果 執行 plugin安裝 1.查詢es程序 ps ef grep elastic 2.殺掉es程序 kill 9 2382 程序號 3.重啟es sh elasticsearch d 1.通過rest方式建立...

ik分詞器安裝

lucene的ik分詞器早在2012年已經沒有維護了,現在我們要使用的是在其基礎上維護公升級的版本,並且開發為elasticsearch的整合外掛程式了,與elasticsearch一起維護公升級,版本也保持一致,最新版本 6.3.0 上傳課前資料中的zip包,解壓到elasticsearch目錄的...

IK分詞器外掛程式

分詞 即把一段中文或者別的劃分成乙個個的關鍵字,我們在搜尋時候會把自己的資訊進行分詞,會把資料庫中或者索引庫中的資料進行分詞,然後進行乙個匹配操作,預設的中文分詞是將每個字看成乙個詞,比如 我愛小葉曲 會被分為 我 愛 小 葉 曲 這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。...