大資料面試題如何找出訪問最多的IP

問題描述：

現有海量日誌資料儲存在乙個超大的檔案中，該檔案無法直接存入記憶體，要求從中提取某天訪問bd次數最多的ip

分析解讀：

由於這個題目只關心某一天訪問次數最多的ip，因此可以首先對檔案進行一次遍歷，把這一天訪問的ip的相關資訊記錄到乙個單獨的檔案中。接下來可以用之前的方法來進行求解。唯一需要確定的是把乙個大檔案分成多少個小檔案比較合適。以ipv4為例子，由於乙個ip位址占用32位，因此最多會有2^32=4g種取值情況。如果使用hash（ip)%1024值，那麼把海量ip日誌分別儲存到1024個小檔案中。這樣，每個小檔案最多包含4m個ip位址。如果使用2048個小檔案，那麼每個小檔案會最多包含2m個ip位址。因此，對於這種題目來說，首先需要確定可用的記憶體的大小，然後確定資料的大小。由這兩個引數就可以確定hash函式應該怎麼設定才能保證每個檔案的大小都不超過記憶體的大小，從而可以保證每個小檔案都能被一次性載入到記憶體中。

大資料面試題 如何找出訪問最多的IP

大資料面試題

大資料面試題

大資料面試題

相關推薦

大資料面試題如何找出訪問最多的IP