lucene開發搜尋引擎的一些經驗

排序瓶頸，排序是乙個非常占用資源的功能，尤其是在資料量特別多的情況下，排序就顯示尤為突出，經過測試發現，排序主要和搜尋出的資料量有關，比如說搜尋出的資料是1w條和1k條的排序是不一樣的，但是和索引檔案的資料量關係不大，好搜尋100m和1g的關係不大，但是搜尋1g的也會慢，這是由於搜尋資料量有關，而不是排序的關係，因為排序是在搜尋完成後再進行的，是對搜尋結果進行了乙個遍歷。lucene對不同的分詞也有不同的效果，經過測試發現lucene用系統自帶的標準分詞和簡單分詞搜尋的速度較快,使用了中文分詞的速度較慢。

時間範圍搜尋，使用的是rangequery類進行的，測試時沒有問題，但用實際資料進行搜尋時出現溢位的情況，通過查閱相關資料知道，rangequery最大子查詢為1024個，可以任意增大，但付出的代價是效能上的損失，增大到10240時也有溢位的現象，進一步發現可以使用語法的方法實現時間段的搜尋，字段:[ start to end ]，而且此方法沒有溢位，不丟擲異常，效快，經過測試發現，時間節省百分之五十，在此要說明的是booleanquery有乙個setmaxclausecount函式，用此函式將子查詢設定的大些也會減少程式出錯的機率，但是付出的就是效能上的降低，如設定為10240時，如果要排序的資料量超過10240個時也將會出現溢位的現象，也以在此建議使用上面說的語法來解決時間段的方式。

記憶體索引ramdirectory，經過測試和資料得到，記憶體索引搜尋的效能提高不大，但是對於建立索引的效能確是非常有幫助，經過測試發現，記憶體索引在有些時候甚至會比磁碟索引的搜尋效率還要慢，但是建立索立大量的索引時確有質的提公升，建議建立大量索引時先將索引寫入記憶體索引，當記憶體索引達到一定量時再將記憶體索引一次性寫入磁碟，但對長時間提供穩定的效能有很大幫助，可以減小硬碟的瓶頸對搜尋的影響

查詢類：query查詢有相當多的子類，它分分別實再不同的功能，請檢視lucene的官方文件進行研究，其中模糊查詢和相似查詢相當費時，如果使用者想要禁用掉這兩個查詢可以用如下的**解決：

public class xiluqueryparser extends queryparser

/**禁用模糊搜尋

*/protected query getfuzzyquery(string field,

string termstr,

float minsimilarity)

throws parseexception

/**禁止萬用字元搜尋

*/protected query getwildcardquery(string field,

string termstr)

throws parseexception

}將queryparser.parser(title)換為xiluqueryparser.parser(title)即可。

lucene開發搜尋引擎的一些經驗

搜尋引擎 lucene

搜尋引擎 lucene 例子

搜尋引擎的一些高階搜尋指令

lucene開發搜尋引擎的一些經驗

搜尋引擎 lucene

搜尋引擎 lucene 例子

搜尋引擎的一些高階搜尋指令

相關推薦