mmseg 中文分詞核心配置

2021-09-02 19:36:28 字數 1174 閱讀 9246

【原文】

coreseek-3.2.13相容sphinx-0.9.9的配置,可以不經修改,即可直接使用。

不過,為了更好的針對中文進行檢索,則需要使用coreseek新增的配置引數,設定中文分詞。

以下是中文分詞的核心配置,請仔細閱讀,應用到自己的配置之中:

source 資料來源名稱a

index 索引名稱a

mmseg.ini配置:

mmseg配置檔案之中,可以配置英文和數字的切分細則(例如設定china2008作為整體還是切分為china、2008),詳情請檢視mmseg.ini配置

中文分詞核心配置說明:

charset_dictpath=/usr/local/mmseg3/etc/

表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在;

uni.lib詞典檔案的製作,請參考:

mmseg詞典的構造

因為bsd/linux預設安裝在/usr/local/mmseg3/etc下面,則使用/usr/local/mmseg3/etc/即可;

如果是在windows系統下,則為詞典所在的實際路徑,結尾必須使用/,例如:f:\coreseek-3.2.13-win32\etc/

測試時,如果出現unigram dictionary load error或者segmentation fault,一般為詞典路徑設定不正確。

charset_type=zh_cn.utf-8

表示啟用中文分詞功能;否則中文分詞功能無效,使用sphinx的其他處理模式。

啟用中文分詞功能後,需要source資料來源之中,讀取的資料編碼字符集為utf-8,否則無法正確處理;

如果是xml,則正確輸出為utf-8編碼格式即可;

如果是mysql,則設定讀取資料輸出字符集為utf-8即可:

mysql4.1起可以通過set names utf8設定輸出字符集為utf-8,即使原始資料為gbk也可;

mysql4.1以下版本,請

#charset_table=......

ngram_len=0

表示取消原有的一元字元切分模式,不對中文分詞產生干擾;

charset_table的配置需要注釋掉!

ngram_len的配置需要設定為0!

Mmseg中文分詞演算法解析

mmseg中文分詞演算法解析 author linjiexing 開發中文搜尋和中文詞庫語義自動識別的時候,我採用都是基於mmseg 中文分詞演算法開發的 jcseg 開源工程。使用場景涉及搜尋索引建立時的中文分詞 新詞發現的中文分詞 語義詞向量空間構建過程的中文分詞和文章特徵向量提取前的中文分詞等...

中文分詞核心配置

coreseek 3.2.13相容sphinx 0.9.9的配置,可以不經修改,即可直接使用。不過,為了更好的針對中文進行檢索,則需要使用coreseek新增的配置引數,設定中文分詞。以下是中文分詞的核心配置,請仔細閱讀,應用到自己的配置之中 source 資料來源名稱a index 索引名稱a m...

solr學習之 配置中文分詞元件mmseg4j

1 首先安裝並能夠執行solr服務,如果沒有,請參考solr學習之 solr安裝。2 solr會預設一些中文分詞器,但對分詞支援的不好,比如輸入 我們在北京清華大學附近工作,分出來的都是單個的字 如圖 所以我們需要乙個專業元件進行分詞處理。現在的分詞元件主要有 mmseg4j ikanalyzer,...