redis 布隆過濾器

簡述：

這個過濾器可以檢索乙個元素是否在乙個集合中（優點是查詢效率很高，缺點是有一定概率出現誤判），可以理解為利用高效的資料結構和演算法快速判斷出你這個 key 是否在資料庫中存在，不存在就 return ，存在就去查詢 db資料庫重新整理 kv 再 return。

可以通過**來看下效果：

先導入依賴：

<
dependency
>
<
groupid
>com.google.gu**a
groupid
>
<
artifactid
>gu**a
artifactid
>
<
version
>20.0
version
>
dependency
>

測試demo：

private
static
int size = 1000000;//
預計要插入多少資料，即布隆陣列長度
private
static
double fpp = 0.01;//
期望的誤判率
//private static bloomfilterbloomfilter = bloomfilter.create(funnels.integerfunnel(), size, fpp);
private
static bloomfilterbloomfilter =bloomfilter.create(funnels.integerfunnel(), size);
public
static
void
main(string args) 
double count = 0;
for (int i = 1000000; i < 2000000; i++) 
}system.out.println("100w條資料,其中總共的誤判數:" + count + "誤判率 :"+ (count/1000000l) * 100 + "%");
//如果增加過濾器雜湊陣列長度為100 0000，則預設誤判率會降低到 0.003%
}

輸出結果：

100w條資料,其中總共的誤判數:30155.0誤判率 :3.0155000000000003%

可以看到誤判數為3%，原始碼裡有create方法過載，可以看到有一種方法（我**裡注釋掉的）可以手動傳入期望誤判率，手動設定期望誤差值的話輸出如下：

100w條資料,其中總共的誤判數:10314.0誤判率 :1.0314%

如上圖所示：其預設誤判率在0.03左右。

為什麼會有誤判率？

從布隆過濾器的原理上來講，其本身並不會儲存真正的資料，只是在雜湊陣列中分配標記，例如：

也就是說，其根據對應位置是否為1，判斷資料是否存在，於是就會有個問題，當3和7都佔據這個長度為4的陣列下標處，只會被記錄一次，所以這個資料實際上可能並不存在（對應快取中其實沒有），也就是說，如果布隆返回不存在那就是不存在，而返回存在時可能存在誤判。這個誤判通過增加布隆過濾器雜湊陣列長度可以得到減輕，因為01重複存入的概率會變小。

總結：

布隆過濾器的查詢速度很快，而且保密性強，因為只是儲存二進位制01（不儲存原始資料，可以節省儲存空間），而它的誤判概率並不大，對於零星的漏網之魚落在快取上應該是可以接受的。

redis 布隆過濾器

Redis 布隆過濾器

Redis 布隆過濾器

redis 布隆過濾器

redis 布隆過濾器

Redis 布隆過濾器

Redis 布隆過濾器

redis 布隆過濾器

相關推薦