ETL開源工具kettle中Job流程的理解

2021-09-25 17:24:06 字數 738 閱讀 7696

job流程(可執行執行緒,代表etl控制流中的一項邏輯任務。job節點將會順序執行,每個job節點會產生乙個結果,能作為別的分支上job節點的條件。)

jobentry節點(自定義外掛程式、代表著功能)

hop連線(代表流程邏輯)

result結果物件

流程job繼承執行緒thread類,就是乙個可執行執行緒,並可以沿連線線邏輯順序執行節點的自定義功能。每個節點執行完成之後都返回乙個執行結果result,根據result和連線找到下乙個節點執行,這個過程一直迭代下去直到後面沒有節點可執行。

節點執行-->執行結果-->執行下乙個節點

如果遇到乙個節點分出多條連線,即多個分支並行執行的情況,就為每個分支連線新建乙個執行緒分別繼續迭代下去。

執行時可通過jstat -l pid 檢視到對應執行緒

任何乙個開發都能做到用執行緒執行一項任務,kettle更通用,支撐自定義可拓展的節點外掛程式開發,可根據結果執行不同的分支。自帶的外掛程式滿足基本需要,減少重複開發,降低對使用者的要求。kettle的價值並不在乙個通用工作流執行框架,而應該在於提供了豐富的流程外掛程式和任務轉換外掛程式,可以在不編碼的情況下打通各型別的資料轉換,實現etl。以及方便的日誌檢視,執行狀態監控等方便維護的功能。

開源ETL工具kettle 資料遷移

由於專案的需求,需要將資料從oracle遷移到mssql,不是簡單的資料複製,而是表結構和欄位名都不一樣,甚至需要處理編碼規範不一致的情況,如下圖所示 注意 oracle和mssql中的同名表的欄位名是不相同的 如果要是採用手工sql語句操作的話會很麻煩,需要考慮 oracle和mssql sql語...

開源ETL工具 kettle的使用入門介紹

首先,給大家介紹一寫關於etl的基本知識。etl是由三個詞組成的。分別是extract,transform,load 也就是抽取,轉換和載入。在現代網際網路企業中使用時比較頻繁的,在商業智慧型bi中也是很受歡迎的。常用的etl工具也有很多,比如infomatia,datastage,kettle,t...

ETL工具kettle設定全域性變數

昨天讓kettle傳入的引數搞的很鬱悶,從網上查一些資訊,大多講的是每個transformation內部傳遞引數,要麼就是講在job中把引數傳進transformation,而且還不正確。大家最常碰到的問題恐怕就是要做增量抽取了吧,增量抽取不可避免要碰到時間戳,那麼我們假如每天晚上需要抽取當天新增的...