資訊檢索導論2

5.索引壓縮

有失真壓縮：大小寫轉換，詞幹還原、停用詞剔除、向量空間模型、lsa（隱性語義分析）等；

無失真壓縮：（下面介紹的壓縮方法）

heaps定律：詞項數目的估計---m=kt^b（m-詞項數，t-文件集合中詞條個數，30《k《100，b=0.5）

zipf定律：詞項在文件中分布的估計---排名第i多的詞項的文件集頻率與1/i成正比，例如：如果出現第一多的詞項出現次數是cf1，那麼出

現第二多的詞項出現次數就是cf1/2。用於倒排記錄表壓縮時的詞項分布建模。

其他有關詞項分布的模型：k混合模型，雙泊松模型（見15）

詞典壓縮：1.詞典採用定長陣列儲存所有詞項按照詞典序排序，但這樣會造成空間浪費，如每個詞項都採用20b的固定長度

解決辦法：將所有項存成乙個長字串，給每個詞項增加乙個定位指標；

2.按塊儲存：對1進一步的壓縮，將長字串中的詞項分組變成大小為k的塊（即k個詞項一組），然後對每個塊只保留第乙個

詞項的指標，對每個塊而言減少了k-1個指標，但需要額外的kb儲存k個詞項的長度。、

3.前端編碼：對2進一步的壓縮，按照詞典順序排序的連續詞項之前往往具有公共字首，公共字首被識別出來之後，後續詞項

可以使用乙個特殊的字元來表示這段字首

4.更高效的壓縮率方法：最小完美雜湊---將m個詞項對映到[1,…,m]上（無法在動態環境下使用）

倒排記錄表的壓縮：高頻詞出現的文件id序列間距很小，用20bit位數表示；對於低頻詞間距很大，也用20bit表示，這造成空間浪費。

對小數字採用比大數字更短的編碼方式，採用兩種方法：按位元組壓縮（1）及按位壓縮（2，3）。

1.vb（可變位元組）：利用整數個位元組對間距編碼，位元組第1位是延續位，表明本位元組是某個間距編碼的開始或結束，後7位

是間距的有效編碼區。

磁碟空間不緊張的情況下採用vb編碼，或採用位對齊的二元編碼。

2.γ編碼：更細的位粒度上進行編碼長度的自適應調整。？p69

3.δ編碼：

大數字（大於15）佔主要地位時，δ編碼優於γ編碼；大規模文件集上，採用golomb編碼更優。

《資訊檢索導論》第二十章總結

web採集是從web中採集大量網頁的過程，並且要避免採集重複或無用的頁面，採集完的網頁需要構建索引，以擴大搜尋引擎的索引規模 web採集通常是由多台機器並行採集 1 web採集器需要識別採集器陷阱 spider traps 比如當採集器訪問到某個web伺服器的網頁時，此網頁會生成無限多個網頁被採集器...

《資訊檢索導論》第五章總結

使用壓縮的目的 1 因為我們想要把盡量多的資料放入記憶體，因此壓縮能夠達到這個目的 2 從磁碟到記憶體的傳輸時間會縮短 1 無失真壓縮壓縮後的資料能還原全部資訊 2 有失真壓縮壓縮後會丟失一些資訊如果有失真壓縮後丟失的資訊使用者並不關心，則有失真壓縮也是可以接受的通過整個文件集詞條數來估計詞...

資訊檢索導論2

《資訊檢索導論》第二十章總結

《資訊檢索導論》第五章總結

《資訊檢索導論》第二十章總結

相關推薦