面試題 海量資料處理題

2022-05-01 22:06:08 字數 305 閱讀 2308

問題一:給你a,b兩個檔案,各存放50億條url,每條url占用64位元組,記憶體限制是4g,讓你找出a,b檔案共同的url。如果是三個乃至n個檔案呢?

方案:先算一下4g有多少位(bit),4g = 2^32 * 8 bit = 320億 bit,n才50億,可以用位圖法。將其中乙個檔案中的url使用bloom filter對映為這340億bit,然後挨個讀取另外乙個檔案的url,檢查是否與bloom filter,如果是,那麼該url應該是共同的url(注意會有一定的錯誤率)。

如果是3個或多個呢?2-bitmap或者兩兩查詢。

面試題 海量資料處理相關題目

做騰訊tsa比賽時,遇到海量資料的問題,工作站54g記憶體,把原始資料讀進去各種操作後生成特徵,再訓練導致崩掉。後來只能把特徵做好後存成檔案,需要用的時候再讀進去,省去了生成的中間環節檔案。為了確保記憶體受得住,把特徵按照天來存,最終總算是可以順利訓練和 了。記憶體總是不夠的。對於海量資料處理的策略...

海量資料處理面試題

海量資料處理思路分析題 1.給乙個超過100g大小的log file,log中存著ip位址,設計演算法找到出現次數最多的ip位址?解決方法 雜湊切割topk。將100g的大檔案分成1000份,根據同乙個雜湊函式hashfunc將ip對映到向對應的檔案 每個檔案的大小可以在記憶體中處理 中,相同的ip...

海量資料處理面試題

什麼是海量資料處理?所謂海量資料處理,無非就是基於海量資料上的儲存 處理 操作。何謂海量,就是資料量太大,所以導致要麼是無法在較短時間內迅速解決,要麼是資料太大,導致無法一次性裝入記憶體。那解決辦法呢?針對時間,我們可以採用巧妙的演算法搭配合適的資料結構,如bloom filter hash bit...