ETL工具選型參考

2021-10-06 04:26:56 字數 1310 閱讀 7870

目前主流的etl工具有kettle、talend、nifi、datastage、informatica、cogons、ssis等,其中nifi、kettle和talend是開源軟體,其他均為商業軟體。

開源軟體本身是不收費的,所以主要成本在培訓和諮詢方面,成本會維持在乙個相對較低的水平。

商業軟體本身收費較高,一般會提供幾次免費的諮詢服務或技術支援。

nifi:有非常容易使用的web ui,社群活躍度較高。

talend:有 gui 圖形介面但是以 eclipse 的外掛程式方式提供。

kettle:有非常容易使用的 gui,出現問題可以到社群諮詢。

informatica:有非常容易使用的 gui,但是要專門的訓練。

datastage:最專業的etl工具,適合大規模的etl應用,需要專門的培訓,使用難度較大。

nifi:需要伺服器,部署簡單,可以搭建集群。

kettle:只需要jvm環境

talend:只需要jvm環境

informatica:需要伺服器和客戶端安裝

datastage:需要伺服器,部署比較耗費時間,有一點難度。

大資料量下informatica與datastage的處理速度是比較快的,比較穩定。nifi和kettle的處理速度相比之下稍慢。

informatica與datastage有很好的商業化的技術支援,而nifi和kettle等開源軟體則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。

四者都有監控和日誌工具。在資料的監控上,nifi的實時監控做的更加好,可以直**到資料抽取的情況,執行到哪乙個控制項上。這對於調優來說,我們可以更快的定位到處理速度太慢的控制項並進行處理,而informatica也有相應的功能,但是並不直觀,需要通過兩個介面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查詢。

talend:各種常用資料庫,檔案,web service。

kettle:非常廣泛的資料庫,檔案,另外可以通過外掛程式擴充套件。

nifi:各種常用資料庫,excel檔案,kafka等訊息佇列

informatica:各種資料來源

datastage:各種資料來源

建議目前採用nifi作為etl工具,原因如下

nifi為開源軟體,成本低

nifi上手容易,社群活躍,元件種類繁多

目前資料量和併發性要求不高,對資料實時性也沒有嚴格的要求,可以接受秒級延遲

可以部署集群模式,提高系統穩定性和併發量

擁有流程監控、失敗重試,提供api介面供二次開發

ETL 常用工具對比和選型

資料同步是每個大資料人都繞不開的工作,因為大資料的儲存元件太多了,資料常常因為各種需求需要從乙個地方導到另乙個地方,如果是資料量小,可能我們寫個普通的指令碼就可以完成,但是大資料的場景下,我們不得不借助一些工具來達到我們同步海量資料的目的。說實話 etl 工具實在是太多了,而且很多都可以滿足我們日常...

PDM選型參考

近期參加了宇喜公司舉辦的epdm介紹會,從pdm的功能來看,對於製造型企業的團隊開發,應用pdm是很有必要的,因為傳統的圖紙設計工作存在以下問題 1 圖紙變更後,團隊成員或生產人員未能更時得到新圖紙 2 因為1的問題,導致團隊之間 部門之間協作效率低,並有責任推委。3 因為1的問題,領料人員可能領錯...

PDM選型參考

近期參加了宇喜公司舉辦的epdm介紹會,從pdm的功能來看,對於製造型企業的團隊開發,應用pdm是很有必要的,因為傳統的圖紙設計工作存在以下問題 1 圖紙變更後,團隊成員或生產人員未能更時得到新圖紙 2 因為1的問題,導致團隊之間 部門之間協作效率低,並有責任推委。3 因為1的問題,領料人員可能領錯...