貌似rmmseg ferret中文分詞不是很好

2021-08-29 17:07:59 字數 919 閱讀 5330

用了一下ruby的中文分詞rmmseg + ferret,發現rmmseg的中文分詞並不是很好,比如:hawkins開始了他第一部掌上電腦的設計構想。搜尋「掌上電腦」並不能搜尋到結果,但是如果把上面這一句改為:hawkins開始了他第一部 掌上電腦 的設計構想。請注意「掌上電腦」兩邊的空格,這樣的話,rmmseg就可以正確地分詞了。

對英文的分詞倒是很準確的(好像個個全文檢索對英文分詞都很強的吧)。

也不知道是不是我用得不對,貼上我使用的**:

#全文檢索

#rmmseg中文分詞

analyzer = rmmseg::ferret::analyzer.new

$index = ferret::index::index.new(:analyzer => analyzer)

acts_as_ferret :field => [:title,:summary,:body] #,:ferret =>

#全文檢索方法

def self.full_text_search(q, options = {})

return nil if q.nil? or q==""

default_options =

options = default_options.merge options

# get the offset based on what page we're on

options[:offset] = options[:limit] * (options.delete(:page).to_i-1)

results = page.find_by_contents(q, options)

return [results.total_hits, results]

end

求教rmmseg ferret設定問題

安裝好rmmseg,ferret,acts as ferret後,啟動rails無法載入rmmseg 已經在environment.rb加上了 config.gem ferret version 0.11.6 config.gem rmmseg version 0.1.6 config.gem ac...

貌似生日的快樂

總是又乙個5月15日,對我來說這個 又 字顯得一點都不奇怪。對乙個身在異鄉的人來說,生日顯得多餘。通訊技術的發達將世界縮小的同時,也寵壞了我們的惰性。可有些時候,會發現距離並不因為通訊技術的發展而呈指數縮減的趨勢。而我現在卻正在為這種曲線救國方案而終日努力著,不免有貌似快樂的生日。遠方的牽掛時時都能...

貌似」崢嶸「的歲月

好久沒有寫東西了,這兩天雨也滴答個不停。好像要澆透心中所有的煩亂,不明白這段時間是怎麼了,開始懷念,開始懷念一些人,一些事.開始工作以來,所經歷過的事,所見到過的人。無一不催進著我的思考,催促著我的改變。以求能更好的適應這種工作的環境及壓力。崢嶸歲月,可能還達不到那種程度。只能用支言片語來記錄那些過...