hyperloglog演算法思路簡介

演算法沒詳細看，有興趣的可以讀原始**：，不過最頂層的思路get了

首先這個演算法的目的是求一堆元素當中不重複元素的數量，例如, a, b, a, c中不重複的元素只有a, b,c 3個，那麼結果就是3.

在面對巨大資料量時，這個問題的常規解法會變得非常消耗記憶體，即使用計算機儲存的基本單位乙個位元來代表乙個元素，在海量資料時，仍顯得力不從心。

但是仔細想，難道還有比用位元更省空間的嗎？想來是沒有了。

那麼hyperloglog演算法就是一種基於統計學的方法，既然是基於統計學的方法，那麼這種方法就會「有誤差」，只不過通過一些計算可以讓誤差變得更小。

這種統計學方法的思路是什麼呢？網上有各種用拋硬幣來模擬的，我看不用說得那麼複雜，只要一句話就能得到這種方法的頂層思路：

「如果你看見乙個萬中無一的人（即這種人出現的概率為1/10000），那麼你知道這個世界大概率至少有一萬個人」

這是一種見微知著的方法，基於個體樣本的總體反推。

再細化一步，如果我們把所有的元素通過某個hash函式對映成二進位制位（hash函式足夠分散，足夠平均到整個空間），像101011, 011001, 000101這種，然後對任意乙個元素用上面的頂層思路進行反推，可以得到乙個總體不重複樣本數的估算值，例如可以認為直接以1開頭的元素出現的概率是1/2，那麼可以認為總體元素數大概率超過2個，然後出現000101這種元素，前面以3個0開頭，認為這種元素出現的概率是1/8，那麼總體樣本數的估算就認為至少是8個，對所有元素都這麼估一次，取最大值，就可以得到乙個不重複元素數的估計。

當然，以上的說法肯定誤差巨大，並且對hash函式的隨機性要求非常高，所以具體實踐時，還有很多改進細節，例如分組之類的，改進完之後可以做到非常省記憶體，且準確度非常高。

redis有乙個資料結構hyperloglog就是用這種方法實現不重複元素數統計的，大家有興趣可以自己去看看(參考這裡：

細節我就懶得看了，不想花時間去深入研究這個演算法了，就看個思路。

另乙個好的中文帖子介紹如下：

hyperloglog演算法思路簡介

再談基數估計之HyperLogLog演算法

基數計數 HyperLogLog

基數估算HyperLogLog

hyperloglog演算法思路簡介

再談基數估計之HyperLogLog演算法

基數計數 HyperLogLog

基數估算HyperLogLog

相關推薦