海量資料處理題目小結

解決這類題目的思路一般為

（1）能否用特殊的資料結構解決：位圖，布隆，堆。

（2）雜湊切分

1。給乙個超過100g大小的log file, log中存著ip位址, 設計演算法找到出現次數最多的ip位址

思路分析：

1.要進行雜湊切分編號，log file可以看做是字串，利用雜湊字串轉換演算法進行轉換，轉換成整型後，利用雜湊函式進行對映，同一ip位址肯定對映到同一編號中，

2.這裡我們使用效率很快的雜湊表，進行此數的統計，就可以找出出現此數最多的ip位址

2.與上題條件相同，如何找到top k的ip？如何直接用linux系統命令實現？

思路分析：

要找到topk的ip位址，如果直接進行排序的話，記憶體放不下，而且效率太慢，所以這我們可以建乙個k大小的堆，這裡建小堆比較好，因為來乙個數和進行堆頂的元素進行比較，然後進行向下調整，大的就下去了，因此最終統計的就是topk

3。給兩個檔案，分別有100億個query，我們只有1g記憶體，如何找到兩個檔案交集？分別給出精確演算法和近似演算法!

思路分析：

1。檔案進行比較，用位圖顯然不能解決

2。肯定要進行雜湊切分，我們將兩個檔案分別切分為1000個檔案，先對檔案a分的1000個檔案裡的整數進行雜湊分配，即取出來整數模除1000，使相同的整出進入相同的檔案，檔案b切分的1000個檔案進行同樣的處理，然後分別拿a雜湊切分好的第乙個檔案和b雜湊切分好的第乙個檔案對比，找出交集存到乙個新檔案中，依次類推，直到2000個檔案互相比較完。

4）給上千個檔案，每個檔案大小為1k—100m。給n個詞，設計演算法對每個詞找到所有包含它的檔案，你只有100k記憶體!

1。用乙個檔案info 準備用來儲存ｎ個詞和包含其的檔案資訊。

2。首先把ｎ個詞分成ｘ份。對每乙份用生成乙個布隆過濾器（因為對ｎ個詞只生成乙個布隆過濾器，記憶體可能不夠用）。把生成的所有布隆過濾器存入外存的乙個檔案filter中。

3。將記憶體分為兩塊緩衝區，一塊用於每次讀入乙個布隆過濾器，乙個用於讀檔案(讀檔案這個緩衝區使用相當於有界生產者消費者問題模型來實現同步)，大檔案可以分為更小的檔案，但需要儲存大檔案的標示資訊（如這個小檔案是哪個大檔案的）。

4。對讀入的每乙個單詞用記憶體中的布隆過濾器來判斷是否包含這個值，如果不包含，從filter檔案中讀取下乙個布隆過濾器到記憶體，直到包含或遍歷完所有布隆過濾器。如果包含,更新info 檔案。直到處理完所有資料。刪除filter檔案。

5）有乙個詞典，包含n個英文單詞，現在任意給乙個字串，設計演算法找出包含這個字串的所有英文單詞!

可以用kmp演算法或者字典樹

海量資料處理題目小結

海量資料處理 題目

海量資料處理

海量資料處理

相關推薦

海量資料處理題目