kettle資料同步的5中方案

2021-06-27 22:40:31 字數 693 閱讀 2403

1.觸發器:在資料庫建立增刪改的觸發器。觸發器將變更放到一張臨時表裡。oracle同步cdc

優點:實時同步

缺點:影響到業務系統,因為需要在業務系統建立觸發器

2.日誌:通過分析源資料庫日誌,來獲得源資料庫中的變化的資料。oracle非同步cdc

優點:不影響業務系統

缺點:有一定得延時,對於沒有提供日誌分析介面的資料來源,開發的難度比較大

3.時間戳:在要同步的源表裡有時間戳字段,每當資料發生變化,時間戳會記錄發生變化的時間

優點:基本不影響業務系統

缺點:要求源表必須有時間戳這一列

4.資料比較:通過比較兩邊資料來源資料,來完成資料同步。一般用於實時性要求不高的場景。

優點:基本不影響業務系統

缺點:效率低

5. 全表拷貝:定時清空目的資料來源,將源資料來源的資料全盤拷貝到目的資料來源。一般用於資料量不大,實時性要求不高的場景。

優點:基本不影響業務系統,開發、部署都很簡單

缺點:效率低

總結:1. 上面五種資料同步方式,除了第五種都需要業務表有主鍵。

2. 對於沒有觸發器和日誌的一些小型資料來源,如txt 文字,excel 檔案,aceess,則只能使用後三種方式。

3. 對於大型資料來源,一般優先選擇日誌方式,如 orcale asynchronized cdc, 對於不能通過日誌來實現的情況,可以考慮第1,3,4種方式。

kettle資料同步的優化

在進行將oracle的資料同步到mysql的時候,由於資料量大導致使用kettle的全量同步比較慢,所以需要對這一過程進行優化。1 從源頭的表輸入入手 通過設定表輸入的多執行緒資料抽取,可提公升資料的輸入速度。但是如果只是在kettle設定表輸入的多執行緒數量的話,會導致資料重複。比如 select...

kettle中json input中資料的解析

類似於xpath在xml文件中的定位,jsonpath表示式通常是用來路徑檢索或設定json的。其表示式可以接受 dot notation 和 bracket notation 格式,例如 store.book 0 title store book 0 title jsonpaht 用乙個抽象的名字...

基於檔案的離線資料同步方案

產品此前的資料備份方案,存在不少問題,所以需要設計乙個新的方案。本文總結一下新舊方案的優劣 而恢復邏輯,則是從伺服器的mysql資料庫裡,遍歷找到所有的記錄,也生成sql語句,發回客戶端,客戶端再執行sql進行恢復。當發生衝突的時候,以客戶端的資料為準,違反主鍵約束的時候,插入資料就會失敗。比如客戶...