Coreseek 帶中文分詞的Sphinx

2021-09-08 11:15:38 字數 1576 閱讀 3417

sphinx並不支援中文分詞, 也就不支援中文搜尋, coreseek = sphinx + mmseg(中文分詞演算法)

2).解壓後有三個資料夾

csft-3.2.14: sphinx

mmseg-3.2.14: 中文分詞元件

testpack: 介面開發包

2.安裝

1).先安裝mmseg, 因為coreseek會用到

cd mmseg-3.2.14

./configure --prefix=/usr/local/mmseg

此時如果makefile檔案建立成功, 但是出現了乙個config.status: error: cannot find input file: src/makefile.in錯誤資訊, 使用以下命令重新編譯

aclocal

libtoolize --force

automake --add-missing

autoconf

autoheader

make

clean

./configure --prefix=/usr/local/mmseg

執行安裝

make && make

install

2).安裝csft(即coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib

make && make

install

3.中文分詞演算法分類

1).基於字串匹配的分詞方法

基於字典, 進行挨個的詞條匹配

三個要素: 分詞詞典, 文字掃瞄順序, 匹配原則

掃瞄順序: 正向, 逆向, 雙向

匹配原則: 最大, 最小, 逐詞,最佳

2).基於理解的分詞方法, 正在測試階段

3).基於統計的分詞方法, 可以根據相鄰的字出現的次數和頻率等自動識別生詞, 自動消除歧義

4.配置coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #與sphinx不同的是配置檔名不同

#接下來按照sphinx配置即可, 注意索引中的此兩處配置

#charset_type = zh_cn.utf-8

#charset_dictpath = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin

./indexer --all

6.查詢內容

cd /usr/local/coreseek/bin

./search 隨永傑

coreseek 中文分詞 and sphinx

1,解壓coreseek 3.2.14.tar.gz 原始碼包 解壓生成三個檔案包 csft mmseq 中文分詞 testpack pdp pyson 鏈結sphinx或者使用的api檔案 tar xzf coreseek 3.2.14.tar.gz2,進入mmseg所在的資料夾,編譯安裝中文分詞...

中文分詞的方法

中文分詞主要有兩個類別 本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的 充分大的 詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種 正向...

asp 的中文分詞

a程式設計客棧 日本是中國的乙個省 我們美麗中國的張家界!b 中國,我們,張家界,日本,美國,蘋果 b split b,a split a,for k 0 to ubound a s n fo程式設計客棧r i 0 to ubound b if instr a k b i 0 then s s in...