Solr搜尋的排序打分規則

使用solr搭建搜尋引擎很容易，但是如何制定合理的打分規則(boost)做排序卻是乙個很頭痛的事情。solr本身的排序打分規則是繼承自 lucene的文字相關度的打分即boost，這一套演算法對於通用的提供全文檢索的服務來講，已經夠用了，但是對於一些專門領域的搜尋來講，文字相關度的打分是不合適的。

如何來定製適合自身業務的排序打分規則（boost）呢？經過這段時間的思考與實踐，想到了如下三個方法

上面每一種方法都有其優劣，下面分析一下各自的優劣。

下面結合最近使用solr的實踐，著重介紹一下通過使用solr的dismaxqparserplugin通過配置來制定結果文件打分規則。

dismaxqparserplugin提供在針對文字boost打分上，支援搜尋多個schema索引字段，並針對每乙個字段設定不同的boost許可權。

pf查詢與 qf查詢

pf:可提供對一條記錄的多個欄位做匹配的功能

qf:針對查詢的每個字段設定不同的boost權重打分，其設定的字段必須為在pf中配置的項。

edismax
name info title
name^1 info^0.8 title^0.6

上面一段的意思是，查詢name，info,title三個字段，每個欄位的文字相關度打分權重分別為1,0.8,0.6。計算查詢出的每一條結果的權重方法如下：分別計算各字段的文字打分然後乘於配置的權重，最後三者相加即為該結果的boost得分。

bf查詢

除去pf查詢，qf查詢之外，仍然希望索引記錄的其它字段能夠計入打分中，這時可以使用bf查詢。bf查詢支援一些資料函式，這些函式可作用在索引記錄的字段上，多為時間，數值等字段。同樣bf也支援新增權重。下面是乙個使用bf查詢配置的例子：

edismax
sum(recip(ms(now,created_time),3.16e-11,1,1),sqrt(log(max(sales,1))),sqrt(log(count)))^10
name info title
name^1 info^0.8 title^0.6

其中sum，recip，ms，sqrt，log，max這些都是solr提供的數學方法，支援的所有數學方法可在這裡查詢到：

edismax相關資源：