海量資料處理

1、有一千萬條簡訊，有重複，以文字檔案的形式儲存，一行一條，有重複。請用5分鐘時間，找出重複出現最多的前10條。

方法1：可以用雜湊表的方法對1千萬條分成若干組進行邊掃瞄邊建雜湊表。第一次掃瞄，取首位元組，尾位元組，中間隨便兩位元組作為hash code，插入到hash table中。並記錄其位址和首席資訊官度和重複次數，1千萬條資訊，記錄者幾個資訊還放得下。同hash code且等長就是疑似相同，比較一下。相同記錄只加1次進hash table，但將重複次數加1.一次掃瞄以後，已經記錄各自的重複次數，進行第二次hash table的處理。用線性時間選擇可在o(n)的級別上完成前10條的尋找。分組後每份中的top 10必須保證各不相同，可用hash來保證。也可以直接按hash值的大小來分類。

方法2：可以採用從小到大排序的方法，根據經驗，除非是**的過節簡訊，否則字數越少的簡訊出現重複的機率越高。建議從字數少的簡訊開始找起，比如一開始搜乙個字的簡訊，找出重複出現的top10並分別記錄出現次數，然後搜兩個字的，比如開始搜乙個字的簡訊，找出重複出現的top10並分別記錄出現次數，然後搜兩個字的，一次類推。對於相同字數的比較長的簡訊的搜尋，除了hash之類的演算法外，可以選擇只抽取頭、中和尾等幾個位置的字元進行粗判，因為此種判斷方式是為了加快查詢速度但未必能得到真正期望的top10,因此需要做標記；如此搜尋一遍後，可以從各次top10結果中找到備選的top10,如果這top10中有剛才做過標記的，則對其對應的所有簡訊進行精確搜尋以找到真正的top10並在此比較。

海量資料處理

海量資料處理

海量資料處理

海量資料處理

相關推薦