海量資料處理

2021-06-09 19:25:30 字數 705 閱讀 7505

1、有一千萬條簡訊,有重複,以文字檔案的形式儲存,一行一條,有 重複。請用5分鐘時間,找出重複出現最多的前10條。

方法1:可以用雜湊表的方法對1千萬條分成若干組進行邊掃瞄邊建雜湊表。第一次掃瞄,取首位元組,尾位元組,中間隨便兩位元組作為hash code,插入到hash table中。並記錄其位址和首席資訊官度和重複次數,1千萬條資訊,記錄者幾個資訊還放得下。同hash code且等長就是疑似相同,比較一下。相同記錄只加1次進hash table,但將重複次數加1.一次掃瞄以後,已經記錄各自的重複次數,進行第二次hash table的處理。用線性時間選擇可在o(n)的級別上完成前10條的尋找。分組後每份中的top 10必須保證各不相同,可用hash來保證。也可以直接按hash值的大小來分類。

方法2:可以採用從小到大排序的方法,根據經驗,除非是**的過節簡訊,否則字數越少的簡訊出現重複的機率越高。建議從字數少的簡訊開始找起,比如一開始搜乙個字的簡訊,找出重複出現的top10並分別記錄出現次數,然後搜兩個字的,比如開始搜乙個字的簡訊,找出重複出現的top10並分別記錄出現次數,然後搜兩個字的,一次類推。對於相同字數的比較長的簡訊的搜尋,除了hash之類的演算法外,可以選擇只抽取頭、中和尾等幾個位置的字元進行粗判,因為此種判斷方式是為了加快查詢速度但未必能得到真正期望的top10,因此需要做標記;如此搜尋一遍後,可以從各次top10結果中找到備選的top10,如果這top10中有剛才做過標記的,則對其對應的所有簡訊進行精確搜尋以找到真正的top10並在此比較。

海量資料處理

給定a b兩個檔案,各存放50億個url,每個url各占用64位元組,記憶體限制是4g,如何找出a b檔案共同的url?答案 可以估計每個檔案的大小為5g 64 300g,遠大於4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。遍歷檔案a,對每個url求取hash url 1000...

海量資料處理

分而治之 hash對映 hash統計 堆 快速 歸併排序 300萬個查詢字串中統計最熱門的10個查詢。針對此類典型的top k問題,採取的對策往往是 hashmap 堆。hash統計 先對這批海量資料預處理。具體方法是 維護乙個key為query字串,value為該query出現次數的hashtab...

海量資料處理

演算法思想 分而治之 hash 1.ip 位址最多有 2 32 4g種取值情況,所以不能完全載入到記憶體中處理 2.可以考慮採用 分而治之 的思想,按照 ip位址的hash ip 1024 值,把海量 ip 日誌分別儲存到 1024 個小檔案中。這樣,每個小檔案最多包含 4mb 個 ip 位址 3....