Coreseek 帶中文分詞的Sphinx

sphinx並不支援中文分詞, 也就不支援中文搜尋, coreseek = sphinx + mmseg(中文分詞演算法)

2).解壓後有三個資料夾

csft-3.2.14: sphinx

mmseg-3.2.14: 中文分詞元件

testpack: 介面開發包

2.安裝

1).先安裝mmseg, 因為coreseek會用到

cd mmseg-3.2.14

./configure --prefix=/usr/local/mmseg

此時如果makefile檔案建立成功, 但是出現了乙個config.status: error: cannot find input file: src/makefile.in錯誤資訊, 使用以下命令重新編譯

aclocal

libtoolize --force

automake --add-missing

autoconf

autoheader

make

clean

./configure --prefix=/usr/local/mmseg

執行安裝

make && make

install

2).安裝csft(即coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib

make && make

install

3.中文分詞演算法分類

1).基於字串匹配的分詞方法

基於字典, 進行挨個的詞條匹配

三個要素: 分詞詞典, 文字掃瞄順序, 匹配原則

掃瞄順序: 正向, 逆向, 雙向

匹配原則: 最大, 最小, 逐詞,最佳

2).基於理解的分詞方法, 正在測試階段

3).基於統計的分詞方法, 可以根據相鄰的字出現的次數和頻率等自動識別生詞, 自動消除歧義

4.配置coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #與sphinx不同的是配置檔名不同

#接下來按照sphinx配置即可, 注意索引中的此兩處配置

#charset_type = zh_cn.utf-8

#charset_dictpath = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin

./indexer --all

6.查詢內容

cd /usr/local/coreseek/bin

./search 隨永傑

coreseek 中文分詞 and sphinx

1，解壓coreseek 3.2.14.tar.gz 原始碼包解壓生成三個檔案包 csft mmseq 中文分詞 testpack pdp pyson 鏈結sphinx或者使用的api檔案 tar xzf coreseek 3.2.14.tar.gz2，進入mmseg所在的資料夾，編譯安裝中文分詞...

中文分詞的方法

中文分詞主要有兩個類別本別是基於字詞典分詞演算法和基於統計的機器學習演算法，下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的充分大的詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞演算法分為以下幾種正向...

asp 的中文分詞

a程式設計客棧日本是中國的乙個省我們美麗中國的張家界！b 中國,我們,張家界,日本,美國,蘋果 b split b,a split a,for k 0 to ubound a s n fo程式設計客棧r i 0 to ubound b if instr a k b i 0 then s s in...

Coreseek 帶中文分詞的Sphinx

coreseek 中文分詞 and sphinx

中文分詞的方法

asp 的中文分詞

相關推薦