Bloom Filter 海量資料處理

先來看這樣乙個爬蟲相關問題：檔案a中有10億條url，每條url占用64位元組，機器的記憶體限制是4g，現有乙個url，請判斷它是否存在於檔案a中(爬過的url無需再爬)。如果有很多個url需要判斷呢？

分析之後我們可以發現，這就是快速query問題，通常查操作居多，寫操作較少。要快速判斷乙個url是否在檔案a中，由於

\[ \]

而60g是放不進記憶體的，所以逐個讀入記憶體判斷的話，時間複雜度起碼是o(10億)，這顯然不能滿足要求。如何節約記憶體又可以節省時間才是關鍵！bloom filter就是解決這種問題的資料結構，主要是能很好地節省記憶體。

bloom filter (下簡稱bf)在海量資料方面的處理表現不錯，它的內部需要的結構有：

乙個url依次經過k個hash函式後得到k個數字，設為\(\)，置bitset[\(\)] = 1。先將a檔案中的url都這樣處理，那麼得到的bitset就是記錄了與檔案a相關的資訊。將60gb的檔案資訊壓縮成m個bit，如果能很好利用這m個bit，那記憶體將大大減少。

如何利用bitset[m]？

對於每個詢問的url，經過這k個hash函式之後同樣能得到k個數字，設為\(\)，如果有

\\& bitset \& } \cdots ]}

\]說明此url可能存在於a中，但是目前不能確定是否存在；如果有

\\& bitset \& } \cdots ]}

\]那就可以確定此url不在a中。對於此url是否一定存在於檔案a中，bloom filter無法給出肯定的答覆。設n為資料量(即10億)，m為bitset大小(即槽個數)，k為hash函式個數，則它的錯誤率公式是

\[)^]^≈(1-e^})^}

\]從上式中知道，

看回最上面的問題，檔案a在4gb記憶體中能達到的最低錯誤率是多少？

其實有3個因素決定了錯誤率，n、m、k，其中n與資料量掛鉤，m與空間掛鉤，k與時間掛鉤，既然n已固定為10億，m已固定約為32gb，那麼k的大小將決定錯誤率的大小。分析一下，預處理時需要先將n個資料都進行hash成k個數，所以時間複雜度為o(n*k)，而預處理完後每個查詢僅需時間複雜度o(k)。

關於證明，如果有興趣可以去維基上看。

Bloom Filter 海量資料處理

Bloom Filter 海量資料過濾的發動機

海量資料處理之Bloom Filter詳解

Bloom Filter 資料結構的應用

Bloom Filter 海量資料處理

Bloom Filter 海量資料過濾的發動機

海量資料處理之Bloom Filter詳解

Bloom Filter 資料結構的應用

相關推薦