sphinx應用,中文分詞核心配置！

source 資料來源名稱a

index 索引名稱a

中文分詞核心配置說明：

charset_dictpath=/usr/local/mmseg3/etc/

表示詞典檔案的目錄，該目錄下必須有uni.lib詞典檔案存在；

uni.lib詞典檔案的製作，請參mmseg詞典的構造

因為bsd/

linux預設安裝在/usr/local/mmseg3/etc下面，則使用/usr/local/mmseg3/etc/即可；

如果是在windows系統下，則為詞典所在的實際路徑，結尾必須使用/，例如：f:\coreseek-3.2.13-win32\etc/

測試時，如果出現unigram dictionary load error或者segmentation fault，一般為詞典路徑設定不正確。

charset_type=zh_cn.utf-8

表示啟用中文分詞功能；否則中文分詞功能無效，使用sphinx的其他處理模式。

啟用中文分詞功能後，需要source資料來源之中，讀取的資料編碼字符集為utf-8，否則無法正確處理；

如果是xml，則正確輸出為utf-8編碼格式即可；

如果是mysql，則設定讀取資料輸出字符集為utf-8即可：

mysql4.1起可以通過set names utf8設定輸出字符集為utf-8，即使原始資料為gbk也可；

mysql4.1以下版本，請解決gbk或者latin1輸出為utf-8問題；

#charset_table=......

ngram_len=0

表示取消原有的一元字元切分模式，不對中文分詞產生干擾；

charset_table的配置需要注釋掉！

ngram_len的配置需要設定為0！

配製檔案示例：

index threadsinfo

Coreseek 帶中文分詞的Sphinx

sphinx並不支援中文分詞,也就不支援中文搜尋,coreseek sphinx mmseg 中文分詞演算法 2 解壓後有三個資料夾 csft 3.2.14 sphinx mmseg 3.2.14 中文分詞元件 testpack 介面開發包 2.安裝 1 先安裝mmseg,因為coreseek會用到...

中文分詞中文分詞及其應用

一中文分詞原理中文分詞是指將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類，分別是基於字串匹配的分詞方法基於理解的分詞方法和基於統計的分詞方法。一基於字串匹配的分詞方法基於字串匹配的分詞方法又稱機械分詞方法，它是按...

中文分詞核心配置

coreseek 3.2.13相容sphinx 0.9.9的配置，可以不經修改，即可直接使用。不過，為了更好的針對中文進行檢索，則需要使用coreseek新增的配置引數，設定中文分詞。以下是中文分詞的核心配置，請仔細閱讀，應用到自己的配置之中 source 資料來源名稱a index 索引名稱a m...

sphinx應用,中文分詞核心配置！

Coreseek 帶中文分詞的Sphinx

中文分詞 中文分詞及其應用

中文分詞核心配置

相關推薦

中文分詞中文分詞及其應用