各種基於es的分詞外掛程式

field.store.yes:儲存字段值（未分詞前的字段值）

field.store.no:不儲存,儲存與索引沒有關係

field.store.compress:壓縮儲存,用於長文字或二進位制，但效能受損

jieba分詞（結巴分詞作為es的外掛程式：）

按照這個**說的，即可安裝。

ansj分詞外掛程式:

jcseg分詞外掛程式: 或

利用mvn package命名可以生成jar包

(1.9.8版本)分別生成jcseg-core-1.9.8.jar和jcseg-analyzer-1.9.8.jar，並將lexion資料夾和這兩個jar包放到同乙個目錄下，否則初始化的時候會因此找不到lexion資料夾而報錯。

2.2版本不需要移動lexion資料夾

(2).複雜模式：mmseg四種過濾演算法，具有較高的歧義去除，分詞準確率達到了98.41%。

(3).檢測模式：只返回詞庫中已有的詞條，很適合某些應用場合。

(4).檢索模式：細粒度切分，專為檢索而生，除了中文處理外（不具備中文的人名，數字識別等智慧型功能）其他與複雜模式一致（英文，組合詞等）。

(5).分隔符模式：按照給定的字元切分詞條，預設是空格，特定場合的應用。

(6).nlp模式：繼承自複雜模式，更改了數字，單位等詞條的組合方式，增加電子郵件，大陸手機號碼，**，人名，地名，貨幣等以及無限種自定義實體的識別與返回。

基於 IK 分詞器的 ES 通用索引模板

索引模板只在索引被建立時候生效，一旦索引建立後，對索引模板的修改不會對舊索引的設定造成任何影響。簡單來說，索引模板是一種復用機制，省去了大量重複性勞動，索引模板的基本結構如下所示索引設定 aliases 索引的別名複製對於模板內部更加細節的配置，本文不做介紹，具體可參考文章 www.jians...

es6安裝中文分詞外掛程式 ik（3）

ik官網進入elasticsearch安裝目錄，執行以下命令 elasticsearch analysis ik bin elasticsearch plugin install download v6.3.1 elasticsearch analysis ik 6.3.1.zip 2 安裝完畢之...

中文分詞基於字標註法的分詞

中文分詞字標註通常有2 tag,4 tag和6 tag這幾種方法，其中4 tag方法最為常用。標註集是依據漢字其中也有少量的非漢字字元在漢語詞中的位置設計的。1.2 tag法 2 tag是一種最簡單的標註方法,標註集合為，其將詞首標記設計為b，而將詞的其他位置標記設計為i。例如詞語重慶的標註...

各種基於es的分詞外掛程式

基於 IK 分詞器的 ES 通用索引模板

es6安裝中文分詞外掛程式 ik（3）

中文分詞 基於字標註法的分詞

相關推薦

中文分詞基於字標註法的分詞