大資料處理之Hash雜湊表（一）

因此就雜湊表這種資料結構。

先從淺來講。

如果給我們一串資料，每個資料的範圍是0-9。那如何求出現頻次最高的資料呢？

我們是不是可以定義乙個長度為10的陣列當作計數器。而陣列下標的範圍是不是恰好是0-9？那麼我們是不是可以遍歷這串資料，每次迴圈出現的資料就把當作計數器的下標，讓該下標對應計數器陣列元素+1就好了，比如給我一串資料就是 0 1 2 1

第一次是0 讓計數器[0]加個1

第二次是1 讓計數器[1]加個1

第三次是2 讓計數器[2]加個1

最後乙個資料是1 再讓計數器[1]加個1

此時計數器的 0 1 2 號下標對應的值分別為 1 2 1，是不是就是我們需要的每個資料對應的出現頻次。最後我們只要比較出現頻次的高低就可以了。

結果但是，但是來了，以上的情況非常的巧，資料的大小剛好是0-9十種數，而且計數器也允許我們定義為10個長度

，可是如果我只讓你的計數器長度為5呢（或者更少），你會說何必這麼摳呢？

其實已經夠大方了。你想想，一般的整形數字的範圍是多少，是不是2^32個，不算負數的也2^31個了，假如給你一串資料，範圍就是正整形，你要定義的計數器長度難道要2^31個？乙個佔4個位元組，到2^30個的時候已經消耗了4g的記憶體了，然而還有一半還沒有定義，況且能給你使用的記憶體也遠遠不到4g。如果資料範圍是long long 呢double呢，你計數器涉及到資料的還不到冰山一角。這還只是數字，字串的組合就更多了。。。顯然按照以往的思想是行不通的。

扯得遠了，就拿10種資料和長度為5的計數器來說。

有什麼辦法可以塞得下2倍於自己的東西呢？

是不是可以分開塞啊？搬家一趟搬不完的東西是不是可以多搬幾次？難道非要一次搬完？

關鍵是分開搬?

10種資料，每次只能搬5種，是不是劃分成2次，很容易聯想到奇數偶數的劃分。

10種資料，給你的計數器長度是2呢。是不是每次只能搬2種，要搬5次，是不是能聯想到對5取餘的5種情況呢？

2^31=3萬多種資料，給你的計數器長度是10000，是不是每次只能搬1萬種，起碼要搬4次。按每個數對4取餘情況分成4次處理就好了。

**如下

結果

然而上面的**還是有點low，能不能改的稍微通用點，不用我們每次修改內容，只要給資料範圍，和計數器大小，**就能自動劃分一下呢？還有在被呼叫函式裡列印等很多問題都太freestyle了

因此有了下面的改進

這將把10萬個隨機生成的資料中最頻資料列印出來。

結果然而我們知道一般的資料又都是存放在檔案中，一般不可能處理程式中生成的無意義的隨機數。因此結合檔案操作才是我們進一步需要掌握的。

由於沒有資料檔案，就建立了乙個haha.txt ，裡面存放10萬個隨機數。

結果

大資料處理之Hash雜湊表（一）

大資料處理之（top k）

大資料處理

資料結構之雜湊（hash）表

大資料處理之Hash雜湊表（一）

大資料處理之（top k）

大資料處理

資料結構之雜湊（hash）表

相關推薦