Lucene 合併倒排表演算法之交集

2021-09-30 07:32:31 字數 516 閱讀 1262

可能大家都知道,lucene採用了傳統搜尋引擎中倒排表的資料結構.在搜尋時，假設我們要查詢"+(a:test)+(b:test1)"的話,首先要先查詢得到a欄位中包含 test關鍵字的倒排表,然後查詢得到b欄位中包含test1關鍵字的倒排表,然後對兩個倒排表結構進行merge操作：計算兩者間的交集就是我們的查詢結果.

當然這只是其中乙個例子罷了.實際情況中,因為查詢條件不同和複雜性,我們可能會遇到更多對倒排表的操作:交集,並集,差集等.本文主要講述lucene如何對交集進行處理:合併倒排表,生成sumscorer結果.

第一步:過濾篩選:

先對每個倒排表進行檢查:每個倒排表都是乙個docidsetiterator,如果其中乙個倒排表中list為空,則說明交集肯定為空,不需要進行接下來的工作:

時間複雜度為o(n)常量級別

第二步:對倒排表陣列進行排序:效果是倒排表陣列按照每個倒排表第乙個docid進行公升級排序:

第三步:刪減無用docid:因為是對多個倒排表求交集,所以需要先篩選去掉倒排表中那些比較小的docid:

多個MUST的倒排表合併

skiplist本質上是在有序的鍊錶上實現實現二分查詢，它能有效的提公升鍊錶的查詢效率，其時間複雜度為o logn 其中n為鍊錶長度簡單說skiplist優化了postings的隨機查詢的效能問題。skiplist的節點儲存了三部分資料，分別是當前節點指向block的資訊，是關於block本身的資...

全文搜尋Lucene 之倒排演算法

size large 背景 size 關聯式資料庫不適合做全文搜尋 list like 效率很慢，建的索引將無效，查詢的時候會像翻書一樣一頁一頁的翻當搜尋live的時候，也想把lives living搜出來，但是資料庫很難做到 list size large 倒排演算法 size lucene在國...

資訊檢索倒排記錄表合併演算法實現（python）

倒排記錄表合併演算法偽如下所示執行程式，看到提示請輸入詞項word1 輸入某個倒排記錄表的詞項。執行程式，看到提示請輸入word1的倒排記錄表輸入 1，停止輸入倒排記錄表時，輸入步驟詞項的倒排記錄表，當輸入 1時停止輸入此倒排記錄表。執行程式，看到提示請輸入詞項word2 輸入某個倒...