海量資料實戰從50億資料中找出相同的URL

**問題：**給定a、b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4g，讓你找出a、b檔案共同的url？

目錄：step 3 使用set將小檔案進行求交操作，最終得到相同url

方案1：每個檔案50億個url，每個url最長64個位元組，可以估計每個檔案安的大小為5000,000,000 ×64bit=320,000,000,000bit ≈ 300,000g，遠遠大於記憶體限制的4g，同時需要大硬碟（這裡不考慮分布式計算）。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。

方案2：如果允許有一定的錯誤率，可以使用bloom filter，4g記憶體大概可以表示340億bit。將其中乙個檔案中的url使用bloom filter對映為這340億bit，然後挨個讀取另外乙個檔案的url，檢查是否與bloom filter，如果是，那麼該url應該是共同的url（注意會有一定的錯誤率）。

讀者反饋@crowgns：

hash後要判斷每個檔案大小，如果hash分的不均衡有檔案較大，還應繼續hash分檔案，換個hash演算法第二次再分較大的檔案，一直分到沒有較大的檔案為止。這樣檔案標號可以用a1-2表示（第一次hash編號為1，檔案較大所以參加第二次hash，編號為2）

由於1存在，第一次hash如果有大檔案，不能用直接set的方法。建議對每個檔案都先用字串自然順序排序，然後具有相同hash編號的（如都是1-3，而不能a編號是1，b編號是1-1和1-2），可以直接從頭到尾比較一遍。對於層級不一致的，如a1，b有1-1，1-2-1，1-2-2，層級淺的要和層級深的每個檔案都比較一次，才能確認每個相同的uri。

以上是網上流傳最廣的思路，基於以上想法。我主要有兩點想法，

以下是對上述演算法的實現，

海量資料實戰從50億資料中找出相同的URL

從海量資料中找出中位數

從海量資料中找出中位數

海量資料實戰用SQL做資料分析的高效路徑，爽啊！

海量資料實戰 從50億資料中找出相同的URL

從海量資料中找出中位數

從海量資料中找出中位數

海量資料實戰 用SQL做資料分析的高效路徑，爽啊！

相關推薦

海量資料實戰從50億資料中找出相同的URL

海量資料實戰用SQL做資料分析的高效路徑，爽啊！