海量資料處理

**：

5、給定a、b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4g，讓你找出a、b檔案共同的url？

方案1：可以估計每個檔案安的大小為5g×64=320g，遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。

遍歷檔案a，對每個url求取hash(url)%1000，然後根據所取得的值將url分別儲存到1000個小檔案（記為a0,a1,...,a999）中。這樣每個小檔案的大約為300m。

遍歷檔案b，採取和a相同的方式將url分別儲存到1000小檔案（記為b0,b1,...,b999）。這樣處理後，所有可能相同的url都在對應的小檔案（a0vsb0,a1vsb1,...,a999vsb999）中，不對應的小檔案不可能有相同的url。然後我們只要求出1000對小檔案中相同的url即可。

求每對小檔案中相同的url時，可以把其中乙個小檔案的url儲存到hash_set中。然後遍歷另乙個小檔案的每個url，看其是否在剛才構建的hash_set中，如果是，那麼就是共同的url，存到檔案裡面就可以了。

方案2：如果允許有一定的錯誤率，可以使用bloom filter，4g記憶體大概可以表示340億bit。將其中乙個檔案中的url使用bloom filter對映為這340億bit，然後挨個讀取另外乙個檔案的url，檢查是否與bloom filter，如果是，那麼該url應該是共同的url（注意會有一定的錯誤率）。

bloom filter日後會在本blog內詳細闡述。

6、在2.5億個整數中找出不重複的整數，注，記憶體不足以容納這2.5億個整數。

方案1：採用2-bitmap（每個數分配2bit，00表示不存在，01表示出現一次，10表示多次，11無意義）進行，共需記憶體2^32 * 2 bit=1 gb記憶體，還可以接受。然後掃瞄這2.5億個整數，檢視bitmap中相對應位，如果是00變01，01變10，10保持不變。所描完事後，檢視bitmap，把對應位是01的整數輸出即可。

方案2：也可採用與第1題類似的方法，進行劃分小檔案的方法。然後在小檔案中找出不重複的整數，並排序。然後再進行歸併，注意去除重複的元素。

海量資料處理

海量資料處理

海量資料處理

海量資料處理

相關推薦