海量資料處理

給定a、b兩個檔案，各存放50億個url，每個url各占用64位元組，記憶體限制是4g，如何找出a、b檔案共同的url？

答案：

可以估計每個檔案的大小為5g*64=300g，遠大於4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。

遍歷檔案a，對每個url求取hash(url)%1000，然後根據所得值將url分別儲存到1000個小檔案（設為 a0,a1,...a999）當中。這樣每個小檔案的大小約為300m。遍歷檔案b，採取和a相同的方法將url分別儲存到1000個小檔案 (b0,b1....b999)中。這樣處理後，所有可能相同的url都在對應的小檔案(a0 vs b0, a1 vs b1....a999 vs b999)當中，不對應的小檔案（比如a0 vs b99）不可能有相同的url。然後我們只要求出1000對小檔案中相同的url即可。

比如對於a0 vs b0，我們可以遍歷a0，將其中的url儲存到hash_map當中。然後遍歷b0，如果url在hash_map中，則說明此url在a和b中同時存在，儲存到檔案中即可。

如果分成的小檔案不均勻，導致有些小檔案太大（比如大於2g），可以考慮將這些太大的小檔案再按類似的方法分成小小檔案即可。

海量資料處理

海量資料處理

海量資料處理

海量資料處理

相關推薦