資料抽取增量與全量的區別

當乙個資料需要儲存多份時，會出現一致性問題，所以就需要進行同步，同步分為兩種：增量和全量。

簡單來說，就是在一定的週期中，把當前系統在週期時間內所有資料複製到目標表/系統這樣的同步方式就叫做—>全量

增量同步的前提是全量，然後再更具規則增量同步；

增量的基礎是全量，就是你要使用某種方式先把全量資料拷貝過來，然後再採用增量方式同步更新。

增量的話，就是指抓取某個時刻（更新時間）或者檢查點（checkpoint）以後的資料來同步，不是無規律的全量同步。這裡引入乙個關鍵性的前提：副本一端要記錄或者知道（通過查詢更新日誌或者訂閱更新）哪些更新了。

能用全量別用增量

兩個系統之間需要同步資料，同步的方法可以分為全量和增量兩種形式。多年的經驗告訴我，能用全量就別用增量。增量有三個問題

1.資料提供方，很難製作增量包，事無鉅細都要記錄，稍微記錯就全完了 2.資料接收方，理解並且實施增量包的邏輯比較複雜

3.中間過程一旦出了問題，很難定位

這裡為了方便討論，假設有兩個系統，其中系統a擁有全深圳所有納稅人的當月工資，系統b需要從系統a同步這個資料。對於系統a來說，它的資料在不停的變化，但是可以分成三類

1.新增，比如說有畢業生來深圳打工 2.刪除，比如說有人離職離開深圳了

3.變化，比如說有人漲工資了

這個時候，同步資料的方法很難決策，全量同步不合適，資料量太大而且還不值當，畢竟變化的部分比較少。增量同步又怕麻煩，一旦某次同步出問題，很難倒查故障和恢復。

其實，可以有一種折中方案，上不了檯面，但是值得嘗試。為了方便理解，還是以上面的例子來討論。

我們知道所有人都有身份證號碼，其中有一部分為年月日，表示生日。我們按照生日，在系統a將資料進行分組，這個分組是邏輯上的，不是真實的。如果有個人，工資漲了，生日為1999.9.1，那麼系統a就記錄分組1999.9.1的資料發生了變化。假設兩個系統之間的同步週期是每天同步一次，那麼系統a只需要整理這段時間那些分組發生了變化，但是不用記錄變化的實際內容。系統b就老老實實將發生變化的分組資料刪掉，然後全量同步這些分組的資料。

這個方案，就是賭每天發生變更的資料不會那麼巧，波及所有分組，只會有很小的一部分分組發生變化。這樣從整體看，只是同步了部分資料，從分組看又是簡單的全量同步。這個方案的巧妙之處就是選擇合適的分組標準，既要分的足夠細，又要足夠直接，方便程式處理。

資料抽取增量與全量的區別

ETL資料抽取全量增量

利用sqoop進行全量抽取和增量抽取

Mysql增量備份與全量備份

資料抽取 增量與全量的區別

ETL資料抽取 全量 增量

利用sqoop進行全量抽取和增量抽取

Mysql增量備份與全量備份

相關推薦

資料抽取增量與全量的區別

ETL資料抽取全量增量