中文分詞核心配置

2022-08-02 03:30:17 字數 781 閱讀 9420

coreseek-3.2.13相容sphinx-0.9.9的配置,可以不經修改,即可直接使用。

不過,為了更好的針對中文進行檢索,則需要使用coreseek新增的配置引數,設定中文分詞。

以下是中文分詞的核心配置,請仔細閱讀,應用到自己的配置之中:

source 資料來源名稱a

index 索引名稱a

mmseg.ini配置:

mmseg配置檔案之中,可以配置英文和數字的切分細則(例如設定china2008作為整體還是切分為china、2008),詳情請檢視mmseg.ini配置

中文分詞核心配置說明:

charset_dictpath=/usr/local/mmseg3/etc/

表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在;

uni.lib詞典檔案的製作,請參考:mmseg詞典的構造

解決gbk或者latin1輸出為utf-8問題;

#stopwords=......

表示停止詞檔案,該檔案中的詞彙不參與搜尋;檔案格式為普通utf-8文字檔案,每行乙個;

#charset_table=......

ngram_len=0

表示取消原有的一元字元切分模式,不對中文分詞產生干擾;

charset_table的配置需要注釋掉!

ngram_len的配置需要設定為0!

mmseg 中文分詞核心配置

原文 coreseek 3.2.13相容sphinx 0.9.9的配置,可以不經修改,即可直接使用。不過,為了更好的針對中文進行檢索,則需要使用coreseek新增的配置引數,設定中文分詞。以下是中文分詞的核心配置,請仔細閱讀,應用到自己的配置之中 source 資料來源名稱a index 索引名稱...

sphinx應用,中文分詞核心配置!

source 資料來源名稱a index 索引名稱a 中文分詞核心配置說明 charset dictpath usr local mmseg3 etc 表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在 uni.lib詞典檔案的製作,請參mmseg詞典的構造 因為bsd linux預設安裝...

solr 配置中文分詞

要在中文的專案中使用 solr 少不了要整合中文分詞元件。本篇以 ik2012 分詞為例,講解如何在 solr 3.5 中及整合中文分詞,使用 ik 的原因 ik 比其他中文分詞維護的勤快,和 solr 整合也相對容易。fieldtypename text zh class solr.textfie...