各種基於es的分詞外掛程式

2021-08-17 10:41:24 字數 694 閱讀 8436

field.store.yes:儲存字段值(未分詞前的字段值) 

field.store.no:不儲存,儲存與索引沒有關係 

field.store.compress:壓縮儲存,用於長文字或二進位制,但效能受損 

jieba分詞(結巴分詞作為es的外掛程式:)

按照這個**說的,即可安裝。

ansj分詞外掛程式:

jcseg分詞外掛程式: 或 

利用mvn package命名可以生成jar包

(1.9.8版本)分別生成jcseg-core-1.9.8.jar和jcseg-analyzer-1.9.8.jar,並將lexion資料夾和這兩個jar包放到同乙個目錄下,否則初始化的時候會因此找不到lexion資料夾而報錯。

2.2版本不需要移動lexion資料夾

(2).複雜模式:mmseg四種過濾演算法,具有較高的歧義去除,分詞準確率達到了98.41%。

(3).檢測模式:只返回詞庫中已有的詞條,很適合某些應用場合。

(4).檢索模式:細粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數字識別等智慧型功能)其他與複雜模式一致(英文,組合詞等)。

(5).分隔符模式:按照給定的字元切分詞條,預設是空格,特定場合的應用。

(6).nlp模式:繼承自複雜模式,更改了數字,單位等詞條的組合方式,增加電子郵件,大陸手機號碼,**,人名,地名,貨幣等以及無限種自定義實體的識別與返回。

基於 IK 分詞器的 ES 通用索引模板

索引模板只在索引被建立時候生效,一旦索引建立後,對索引模板的修改不會對舊索引的設定造成任何影響。簡單來說,索引模板是一種復用機制,省去了大量重複性勞動,索引模板的基本結構如下所示 索引設定 aliases 索引的別名 複製 對於模板內部更加細節的配置,本文不做介紹,具體可參考文章 www.jians...

es6安裝中文分詞外掛程式 ik(3)

ik官網 進入elasticsearch安裝目錄,執行以下命令 elasticsearch analysis ik bin elasticsearch plugin install download v6.3.1 elasticsearch analysis ik 6.3.1.zip 2 安裝完畢之...

中文分詞 基於字標註法的分詞

中文分詞字標註通常有2 tag,4 tag和6 tag這幾種方法,其中4 tag方法最為常用。標註集是依據漢字 其中也有少量的非漢字字元 在漢語詞中的位置設計的。1.2 tag法 2 tag是一種最簡單的標註方法,標註集合為,其將詞首標記設計為b,而將詞的其他位置標記設計為i。例如詞語 重慶 的標註...