布隆過濾器

布隆過濾器是一種資料結構，比較巧妙的概率型資料結構，特點是高效地插入和查詢，可以用來告訴你某樣東西一定不存在或者可能存在。

相比於傳統的 list、set、map 等資料結構，它更高效、占用空間更少，但是缺點是其返回的結果是概率性的，而不是確切的。

我們考慮這樣乙個場景，你有乙個**並且擁有很多訪客，每當有使用者訪問時，你想知道這個ip是不是第一次訪問你的**。

為了完成這個功能，你很容易就會想到下面這個解決方案：

把訪客的ip存進乙個hash表中，每當有新的訪客到來時，先檢查雜湊表中是否有該訪客的ip，如果有則說明該訪客不是第一次訪問。

hash表的訪問時間複雜度都是o(1),效率很高，但是假設你的**已經被1億個使用者訪問過，每個ip的長度是15，那麼你一共需要15 * 100000000 = 1500000000bytes = 1.4g，這還沒考慮hash衝突的問題（hash表中的槽位越多，越浪費空間，槽位越少，效率越低）

如果把ip轉換成無符號的int型值來儲存，乙個ip需要占用4個位元組就行了，這時1億個ip占用的空間是4 * 100000000 = 400000000bytes = 380m，空間消耗降低了很多。

那還有沒有在不影響訪問效率的前提下更加節省空間的辦法呢?

32位無符號int型能表示的最大值是4294967295，所有的ip都在這個範圍內，我們可以用乙個bit位來表示某個ip是否出現過，如果出現過，就把代表該ip的bit位置為1，那麼我們最多需要429496729個bit就可以表示所有的ip了。舉個例子比如10.0.0.1轉換成int是167772161，那麼把長度為4294967295的bit陣列的第167772161個位置置為1即可，當有ip訪問時，只需要檢查該標誌位是否為1就行了。

4294967295bit = 536870912byte = 512m

bitset的侷限性

那針對這兩種情況有沒有解決辦法呢？

基於這種思想，bloomfilter誕生了。

bloom filter是一種空間效率很高的隨機資料結構，bloom filter 可以看做是對 bit-map 的擴充套件, 它的原理是：

當乙個元素被加入集合時，通過 k 個 hash 函式將這個元素對映成乙個位陣列（bit array）中的 k 個點，把它們置為 1。檢索時，我們只要看看這些點是不是都是 1 就（大約）知道集合中有沒有它了：

如果這些點有任何乙個 0，則被檢索元素一定不在；如果都是 1，則被檢索元素很可能在。

核心思想

布隆過濾器包括兩部分

redis 因其支援 setbit 和 getbit 操作，且純記憶體效能高等特點，因此天然就可以作為布隆過濾器來使用。

但是布隆過濾器的不當使用極易產生大value，增加 redis 阻塞風險，因此生成環境中建議對體積龐大的布隆過濾器進行拆分。

拆分的形式方法多種多樣，但是本質是不要將 hash(key) 之後的請求分散在多個節點的多個小 bitmap 上，

而是應該拆分成多個小 bitmap 之後，對乙個 key 的所有雜湊函式都落在這乙個小 bitmap 上。

使用hash演算法 + bitmap 實現

另外，既然你使用布隆過濾器來加速查詢和判斷是否存在，那麼效能很低的雜湊函式不是個好選擇，推薦murmurhash、fnv這些。

布隆過濾器

布隆過濾器

布隆過濾器

布隆過濾器

相關推薦