sphinx應用,中文分詞核心配置!

2021-05-27 16:38:17 字數 917 閱讀 5994

source 資料來源名稱a

index 索引名稱a

中文分詞核心配置說明:

charset_dictpath=/usr/local/mmseg3/etc/

表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在;

uni.lib詞典檔案的製作,請參mmseg詞典的構造

因為bsd/

linux預設安裝在/usr/local/mmseg3/etc下面,則使用/usr/local/mmseg3/etc/即可;

如果是在windows系統下,則為詞典所在的實際路徑,結尾必須使用/,例如:f:\coreseek-3.2.13-win32\etc/

測試時,如果出現unigram dictionary load error或者segmentation fault,一般為詞典路徑設定不正確。

charset_type=zh_cn.utf-8

表示啟用中文分詞功能;否則中文分詞功能無效,使用sphinx的其他處理模式。

啟用中文分詞功能後,需要source資料來源之中,讀取的資料編碼字符集為utf-8,否則無法正確處理;

如果是xml,則正確輸出為utf-8編碼格式即可;

如果是mysql,則設定讀取資料輸出字符集為utf-8即可:

mysql4.1起可以通過set names utf8設定輸出字符集為utf-8,即使原始資料為gbk也可;

mysql4.1以下版本,請解決gbk或者latin1輸出為utf-8問題;

#charset_table=......

ngram_len=0

表示取消原有的一元字元切分模式,不對中文分詞產生干擾;

charset_table的配置需要注釋掉!

ngram_len的配置需要設定為0!

配製檔案示例:

index threadsinfo

Coreseek 帶中文分詞的Sphinx

sphinx並不支援中文分詞,也就不支援中文搜尋,coreseek sphinx mmseg 中文分詞演算法 2 解壓後有三個資料夾 csft 3.2.14 sphinx mmseg 3.2.14 中文分詞元件 testpack 介面開發包 2.安裝 1 先安裝mmseg,因為coreseek會用到...

中文分詞 中文分詞及其應用

一 中文分詞原理 中文分詞是指將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類,分別是基於字串匹配的分詞方法 基於理解的分詞方法和基於統計的分詞方法。一 基於字串匹配的分詞方法 基於字串匹配的分詞方法又稱機械分詞方法,它是按...

中文分詞核心配置

coreseek 3.2.13相容sphinx 0.9.9的配置,可以不經修改,即可直接使用。不過,為了更好的針對中文進行檢索,則需要使用coreseek新增的配置引數,設定中文分詞。以下是中文分詞的核心配置,請仔細閱讀,應用到自己的配置之中 source 資料來源名稱a index 索引名稱a m...