通過 Solr 取得分詞

2022-02-12 00:53:51 字數 915 閱讀 1937

原文出處:

solr 1.3 只有 analysisrequesthandler 處理器,只能提交文件來觀察文件的分詞結果。 solr 1.4 有了對字段的分詞。fieldanalysisrequesthandler 可以對某個欄位或字段型別的分詞器對查詢串取到分詞資料。

用 solr 的預設配置,如 solr 1.4.1。

我用 mmseg4j 為例。在 solr.root/example/solr/conf/schema.xml 的 types 元素內加:

把 mmseg4j-all-1.8.2-with-dic.jar 放到 solr.home/example/solr/lib,沒有 lib 目錄,建立乙個。更多關於 solr 中使用 mmseg4j 的內容請看:solr 中文分詞 mmseg4j 使用例子。

如:「中國工商銀行」

,  "analysis":, 		, 		]]}},   "field_names":{}}}
就可以取得查詢串的分詞結果。

目前我知的方式大概有二種:

1、查詢前分詞一遍,把分出的詞用空格分開,再去搜尋(叫它為查詢預處理)。查詢前分詞可以上面的介面。

2、擴充套件 solr query parser,返回 boolean query。

當然還有同學回覆說指定短語的距離,如 "清華大學~100",這個可以投機使用,不夠可靠。

Solr 分詞與搜尋

name ik cnanalyzer class solr.textfield positionincrementgap 100 type index class org.wltea.analyzer.lucene.iktokenize ctory usesmart false analyzer t...

solr搜尋分詞優化

solr搜尋分詞優化 solr伺服器配置好在搜尋時經常會搜出無關內容,把不該分的詞給分了,導致客戶找不到自己需要的內容,那麼我們就從配置詞典入手解決這個問題。首先需要知道自帶的詞典含義 停止詞 停止詞是無功能意義的詞,比如is a are 的 得 我 等,這些詞會在句子中多次出現卻無意義,所以在分詞...

solr 配置中文分詞

要在中文的專案中使用 solr 少不了要整合中文分詞元件。本篇以 ik2012 分詞為例,講解如何在 solr 3.5 中及整合中文分詞,使用 ik 的原因 ik 比其他中文分詞維護的勤快,和 solr 整合也相對容易。fieldtypename text zh class solr.textfie...