六種 主流ETL 工具的比較

2022-08-17 16:45:20 字數 2131 閱讀 6164

比較維度\產品

datapipeline

kettle

oracle goldengate

informatica

talend

datax

設計及架構

適用場景

主要用於各類資料融合、資料交換場景,專為超大資料量、高度複雜的資料鏈路設計的靈活、可擴充套件的資料交換平台

面向資料倉儲建模傳統etl工具

主要用於資料備份、容災

面向資料倉儲建模傳統etl工具

面向資料倉儲建模傳統etl工具

面向資料倉儲建模傳統etl工具

使用方式

全流程圖形化介面,應用端採用b/s架構,cloud native為雲而生,所有操作在瀏覽器內就可以完成,不需要額外的開發和生產發布

c/s客戶端模式,開發和生產環境需要獨立部署,任務的編寫、除錯、修改都在本地,需要發布到生產環境,線上生產環境沒有介面,需要通過日誌來除錯、debug,效率低,費時費力

沒有圖形化的介面,操作皆為命令列方式,可配置能力差

c/s客戶端模式,開發和生產環境需要獨立部署,任務的編寫、除錯、修改都在本地,需要發布到生產環境;學習成本較高,一般需要受過專業培訓的工程師才能使用;

c/s客戶端模式,開發和生產環境需要獨立部署,任務的編寫、除錯、修改都在本地,需要發布到生產環境;

datax是以指令碼的方式執行任務的,需要完全吃透原始碼才可以呼叫,學習成本高,沒有圖形開發化介面和監控介面,運維成本相對高。

底層架構

分布式集群高可用架構,可以水平擴充套件到多節點支援超大資料量,架構容錯性高,可以自動調節任務在節點之間分配,適用於大資料場景

主從結構非高可用,擴充套件性差,架構容錯性低,不適用大資料場景

可做集群部署,規避單點故障,依賴於外部環境,如oracle rac等;

支援分布式部署

支援單機部署和集群部署兩種方式

功能cdc機制

基於日誌、基於時間戳和自增序列等多種方式可選

基於時間戳、觸發器等

主要是基於日誌

基於日誌、基於時間戳和自增序列等多種方式可選

基於觸發器、基於時間戳和自增序列等多種方式可選

離線批處理

對資料庫的影響

基於日誌的採集方式對資料庫無侵入性

對資料庫表結構有要求,存在一定侵入性

源端資料庫需要預留額外的快取空間

基於日誌的採集方式對資料庫無侵入性

有侵入性

通過sql select 採集資料,對資料來源沒有侵入性

自動斷點續傳

支援不支援

支援不支援,依賴etl設計的合理性(例如t-1),指定續讀某個時間點的資料,非自動

不支援,依賴etl設計的合理性(例如t-1),指定續讀某個時間點的資料,非自動

不支援監控預警

視覺化的過程監控,提供多樣化的圖表,輔助運維,故障問題可實時預警

依賴日誌定位故障問題,往往只能是後處理的方式,缺少過程預警

無圖形化的介面預警

monitor可以看到報錯資訊,資訊相對籠統,定位問題仍需依賴分析日誌

有問題預警,定位問題仍需依賴日誌

依賴工具日誌定位故障問題,沒有圖形化運維介面和預警機制,需要自定義開發。

資料清洗

圍繞資料質量做輕量清洗

圍繞資料倉儲的資料需求進行建模計算,清洗功能相對複雜,需要手動程式設計

輕量清洗

支援複雜邏輯的清洗和轉化

支援複雜邏輯的清洗和轉化

需要根據自身清晰規則編寫清洗指令碼,進行呼叫(datax3.0 提供的功能)。

資料轉換

需手動配置異構資料間的對映

特性資料實時性

實時非實時

實時支援實時,但是主流應用都是基於時間戳等方式做批量處理,實時同步效率未知

實時定時

應用難度低高

中高中高

是否需要開發否是

是是是是

易用性高低中

低低低穩定性高低

高中中中

其他實施及售後服務

原廠實施和售後服務

開源軟體,需自客戶自行實施、維護

原廠和第三方的實施和售後服務

主要為第三方的實施和售後服務

分為開源版和企業版,企業版可提供相應服務

阿里開源**,需要客戶自動實施、開發、維護

六種開源協議的比較

http hi.baidu.com pythoner blog item 6dd483235d879940ad34de06.html 感謝作者。現今存在的開源協議很多,而經過open source initiative組織通過批准的開源協議目前有58種。我們在常見的開源協議如 mpl,bsd,gpl...

C 六種集合效能比較

一.先來說說陣列的不足 也可以說集合與陣列的區別 1.陣列是固定大小的,不能伸縮。雖然system.array.resize這個泛型方法可以重置陣列大小,但是該方法是重新建立新設定大小的陣列,用的是舊陣列的元素初始化。隨後以前的陣列就廢棄!而集合卻是可變長的 2.陣列要宣告元素的型別,集合類的元素型...

六種SOLIDWORKS增材製造工具

增材製造,也就是通常所說的3d列印,是一種製造過程,通過新增材料,一層一層,建立乙個零件。這個過程從在使用者的本地cad程式中設計的3d模型開始。然後對該零件進行分析,並將其劃分為許多個部分,以建立該零件的構建計畫。目前常用的增材製造技術有立體石印 sla 選擇性雷射燒結 sls 直接金屬雷射燒結 ...