布隆過濾器了解

直觀的說，bloom演算法類似乙個hash set，用來判斷某個元素（key）是否在某個集合中。

和一般的hash set不同的是，這個演算法無需儲存key的值，對於每個key，只需要k個位元位，每個儲存乙個標誌，用來判斷key是否在集合中。

演算法：1. 首先需要k個hash函式，每個函式可以把key雜湊成為1個整數

2. 初始化時，需要乙個長度為n位元的陣列，每個位元位初始化為0

3. 某個key加入集合時，用k個hash函式計算出k個雜湊值，並把陣列中對應的位元位置為1

4. 判斷某個key是否在集合時，用k個hash函式計算出k個雜湊值，並查詢陣列中對應的位元位，如果所有的位元位都是1，認為在集合中。

優點：不需要儲存key，節省空間

缺點：1. 演算法判斷key在集合中時，有一定的概率key其實不在集合中

2. 無法刪除

典型的應用場景：

某些儲存系統的設計中，會存在空查詢缺陷：當查詢乙個不存在的key時，需要訪問慢裝置，導致效率低下。

比如乙個前端頁面的快取系統，可能這樣設計：先查詢某個頁面在本地是否存在，如果存在就直接返回，如果不存在，就從後端獲取。但是當頻繁從快取系統查詢乙個頁面時，快取系統將會頻繁請求後端，把壓力匯入後端。

這是只要增加乙個bloom演算法的服務，後端插入乙個key時，在這個服務中設定一次

需要查詢後端時，先判斷key在後端是否存在，這樣就能避免後端的壓力。

如果想判斷乙個元素是不是在乙個集合裡，一般想到的是將所有元素儲存起來，然後通過比較確定。鍊錶，樹等等資料結構都是這種思路. 但是隨著集合中元素的增加，我們需要的儲存空間越來越大，檢索速度也越來越慢。不過世界上還有一種叫作雜湊表（又叫雜湊表，hash table）的資料結構。它可以通過乙個hash函式將乙個元素對映成乙個位陣列（bit array）中的乙個點。這樣一來，我們只要看看這個點是不是 1 就知道可以集合中有沒有它了。這就是布隆過濾器的基本思想。

hash面臨的問題就是衝突。假設 hash 函式是良好的，如果我們的位陣列長度為 m 個點，那麼如果我們想將衝突率降低到例如 1%, 這個雜湊表就只能容納 m/100 個元素。顯然這就不叫空間有效了（space-efficient）。解決方法也簡單，就是使用多個 hash，如果它們有乙個說元素不在集合中，那肯定就不在。如果它們都說在，雖然也有一定可能性它們在說謊，不過直覺上判斷這種事情的概率是比較低的。

相比於其它的資料結構，布隆過濾器在空間和時間方面都有巨大的優勢。布隆過濾器儲存空間和插入/查詢時間都是常數。另外, hash 函式相互之間沒有關係，方便由硬體並行實現。布隆過濾器不需要儲存元素本身，在某些對保密要求非常嚴格的場合有優勢。

布隆過濾器可以表示全集，其它任何資料結構都不能；

k 和 m 相同，使用同一組 hash 函式的兩個布隆過濾器的交並差運算可以使用位操作進行。

但是布隆過濾器的缺點和優點一樣明顯。誤算率（false positive）是其中之一。隨著存入的元素數量增加，誤算率隨之增加。但是如果元素數量太少，則使用雜湊表足矣。

另外，一般情況下不能從布隆過濾器中刪除元素. 我們很容易想到把位列陣變成整數陣列，每插入乙個元素相應的計數器加1, 這樣刪除元素時將計數器減掉就可以了。然而要保證安全的刪除元素並非如此簡單。首先我們必須保證刪除的元素的確在布隆過濾器裡面. 這一點單憑這個過濾器是無法保證的。另外計數器迴繞也會造成問題。

布隆過濾器了解

布隆過濾器

布隆過濾器

布隆過濾器

相關推薦