百萬級資料量比對工作的一些整理

最近的一項工作內容是比對資料，在這裡把主要的一些思考過程和思路整理一下。

工作的目標是比對源資料和目標資料，逐字段逐條記錄比較，找出不同的字段以及缺少的記錄。由於資料量比較龐大，大約有七百多萬條，源資料和目標資料分別是以文字方式來儲存，因為資料量大，所以源資料和目標資料都會被拆分成多個檔案，比如源資料會拆分成4個檔案，目標資料可能會拆分成7個檔案，每個檔案可能都會有幾十兆的大小，當然源資料和目標資料都會有唯一化一條記錄的編號，類似資料庫中的主鍵，可以通過此編號來進行比對。

由於數量實在太大，之前公司內部使用的excel比對工具無法完全讀取所有記錄，無法勝任此項工作，因此尋求另一種比較有效率的方式。

最初，採用指令碼語言比如ruby來分別讀取源資料和目標資料，存成2張hash表，key是唯一化的編號，value則是所有字段值的連線，正好文字檔案中每一行是類似這樣子的：20003000，abc，efd，……字段之間會以逗號分隔，而前面的編號的長度是固定一致的，位數不夠前面都會以0填充，所以可以按照這個長度進行分隔，左邊作為key，右邊則是value，從而將所有記錄合起來形成一整張hash表來進行比對。經過一些指令碼的優化，比如兩個hash錶比對時，比完一條就刪除一條以減少遍歷次數，但仍然效率不夠理想，這邊給出乙個結果，我用了3臺機器，將近5個小時比對完700w+的資料量。雖然能完成任務，但是消耗也很大，是否有一種更快，更方便的方法呢。

答案是肯定的，採用資料庫的方式，把資料都扔到資料庫裡面，用sql來作比較，這顯然是乙個比較效率並且靈活的辦法。那開始嘗試吧。

筆者採用mysql資料庫，個人計算機安裝比較方便，而且穩定可靠。建立兩張表，用來分別儲存源資料和目標資料，然後將源資料和目標資料的文字做一些處理，匯入至excel再匯出，以某乙個字元比如tab作為分隔符，然後通過sql語句將所有文字資料匯入至兩張表。完成之後，寫sql，也很簡單，通過編號內連線兩張表，然後以各個欄位不相等作為條件進行查詢。然而事與願違，對於2張700w+的表來說，查詢仍然非常耗時，竟然要超過10個小時以上，由於sql執行超時，並沒有產生結果，於是筆者暫時卡在了這裡。

不過，有朋友提醒，加上索引可能會有改觀。經過一些嘗試，筆者重新建立了帶有主鍵索引的兩張表，並且重新分別匯入一遍資料，然後驚奇的發現，原先的查詢只用了5分鐘，便能找出所有只要有欄位不同的記錄，這個確實讓筆者出乎意料了。

當然整個過程還有一些細節在這裡就不多說了，主要的一些體會是，如果資料量龐大，加上索引效率會好很多，並且查詢條件要帶有主鍵，如此一來，便能輕鬆駕馭百萬級資料。

百萬級資料量比對工作的一些整理

xstream的一些資料整理

整理的一些DarkStar的資料

大資料量的兩個表資料複製的一些經驗總結

百萬級資料量比對工作的一些整理

xstream的一些資料整理

整理的一些DarkStar的資料

大資料量的兩個表資料複製的一些經驗總結

相關推薦