布隆過濾器

2021-10-05 12:05:24 字數 1449 閱讀 4529

本質上布隆過濾器是一種資料結構,比較巧妙的概率型資料結構(probabilistic data structure),特點是高效地插入和查詢,可以用來告訴你 「某樣東西一定不存在或者可能存在」。

相比於傳統的 list、set、map 等資料結構,它更高效、占用空間更少,但是缺點是其返回的結果是概率性的,而不是確切的。

hashmap 的問題

講述布隆過濾器的原理之前,我們先思考一下,通常你判斷某個元素是否存在用的是什麼?應該蠻多人回答 hashmap 吧,確實可以將值對映到 hashmap 的 key,然後可以在 o(1) 的時間複雜度內返回結果,效率奇高。但是 hashmap 的實現也有缺點,例如儲存容量佔比高,考慮到負載因子的存在,通常空間是不能被用滿的,而一旦你的值很多例如上億的時候,那 hashmap 佔據的記憶體大小就變得很可觀了。

還比如說你的資料集儲存在遠端伺服器上,本地服務接受輸入,而資料集非常大不可能一次性讀進記憶體構建 hashmap 的時候,也會存在問題。

布隆過濾器資料結構

布隆過濾器是乙個 bit 向量或者說 bit 陣列,長這樣:

如果我們要對映乙個值到布隆過濾器中,我們需要使用多個不同的雜湊函式生成多個雜湊值,並對每個生成的雜湊值指向的 bit 位置 1,例如針對值 「baidu」 和三個不同的雜湊函式分別生成了雜湊值 1、4、7,則上圖轉變為:

ok,我們現在再存乙個值 「tencent」,如果雜湊函式返回 3、4、8 的話,圖繼續變為:

值得注意的是,4 這個 bit 位由於兩個值的雜湊函式都返回了這個 bit 位,因此它被覆蓋了。現在我們如果想查詢 「dianping」 這個值是否存在,雜湊函式返回了 1、5、8三個值,結果我們發現 5 這個 bit 位上的值為 0,說明沒有任何乙個值對映到這個 bit 位上,因此我們可以很確定地說 「dianping」 這個值不存在。而當我們需要查詢 「baidu」 這個值是否存在的話,那麼雜湊函式必然會返回 1、4、7,然後我們檢查發現這三個 bit 位上的值均為 1,那麼我們可以說 「baidu」 存在了麼?答案是不可以,只能是 「baidu」 這個值可能存在。

這是為什麼呢?答案跟簡單,因為隨著增加的值越來越多,被置為 1 的 bit 位也會越來越多,這樣某個值 「taobao」 即使沒有被儲存過,但是萬一雜湊函式返回的三個 bit 位都被其他值置位了 1 ,那麼程式還是會判斷 「taobao」 這個值存在。

支援刪除麼

傳統的布隆過濾器並不支援刪除操作。但是名為 counting bloom filter 的變種可以用來測試元素計數個數是否絕對小於某個閾值,它支援元素刪除。可以參考文章 counting bloom filter 的原理和實現

布隆過濾器

布隆過濾器 bloom filter 是1970年由布隆提出的。它實際上是乙個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索乙個元素是否在乙個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的演算法,缺點是有一定的誤識別率和刪除困難。如果想要判斷乙個元素是不是在乙個集合裡,一般想到...

布隆過濾器

布隆過濾器的概念 如果想要判斷乙個元素是不是在乙個集合裡,一般想到的是將所有元素儲存起來,然後通過比較確定。鍊錶,樹等等資料結構都是這種思路.但是隨著集合中元素的增加,我們需要的儲存空間越來越大,檢索速度也越來越慢 o n o logn 不過世界上還有一種叫作雜湊表 又叫 雜湊表,hash tabl...

布隆過濾器

如果想判斷乙個元素是不是在乙個集合裡,一般想到的是將集合中所有元素儲存起來,然後通過比較確定。鍊錶 樹 雜湊表 又叫雜湊表,hash table 等等資料結構都是這種思路。但是隨著集合中元素的增加,我們需要的儲存空間越來越大。同時檢索速度也越來越慢。bloom filter 是一種空間效率很高的隨機...