kettle元件 連線

2022-08-24 13:24:11 字數 1232 閱讀 2012

新資料field1, field2

1, 1

2, 9

5, 5

設定:標誌欄位是flag,關鍵字段是 field1, 比較欄位是field2

合併後的資料

field1; field2; flag

1; 1; identical

2; 9; changed

3; 3; deleted

4; 4; deleted

5; 5; new

2:排序合併

對合併後的記錄做排序,指定字段以及排序規則。

一般在排序記錄後邊一定要跟上乙個排序合併。

3:記錄關聯(笛卡爾輸出)

這個步驟允許組合輸入流中的所有行(笛卡爾輸出)

例:步驟名稱:在單一轉換中必須唯一

臨時目錄:如果想輸出更多的行,指定系統儲存臨時檔案的目錄名稱。

臨時檔案字首:生成的臨時檔案的字首。

最大快取大小:系統從臨時檔案讀取資料的快取大小。

讀取的主要步驟:指定讀取最多資料的步驟名稱。

條件:可以指定複雜的條件限制輸出行數。

按照舊etl工具,需要將基礎表a、表b、表c、表d,4張表的資料儲存到本地資料庫,然後,再通過sql將4張表的資料關聯到一

張結果表,過程共產生5張表,嚴重浪費資料庫資源,以及當產生問題,增加維護難度。現使用kettle工具後,將不再需要將基礎

表a、表b、表c、表d這4張表的資料保留到本地資料庫,大大降低資料庫的壓力。

--------------------------先放

4:記錄集連線

多表的join,可以直接用sql寫入【表輸入】元件,也可以借助kettle提供的【記錄集連線】元件,使用kettle的記錄集連線元件,首先

必須要兩個輸入資料集是有序的,並且是根據需要join的字段排序,可以借助kettle的【排序記錄】元件。

步驟:1:首先根據【排序記錄】元件將兩個資料集需要join的字段進行排序。

2:使用記錄集連線元件對資料集進行排序。

注:1:第乙個步驟為連線的主表

2:連線型別分為,內鏈結,左外連線,右外連線,全外連線。

3:兩個步驟的連線字段必須和排序記錄中的名稱一致。

其他:1:步驟名稱:在單一轉換中名稱必須唯一。

2:第乙個步驟:指定要合併的第乙個輸入步驟。

3:第二個步驟:指定要合併的第二個輸入步驟。

4:連線型別:選擇合併可用的型別。

5:連線字段:指定要做關聯的字段。

kettle元件 轉換

1 列轉行 2 列轉行 3 去除重覆記錄 步驟名稱 保持唯一性 增加計數器到輸出?當勾選了此項,並在計數器欄位後給予了名稱,則將會在該字段下顯示去掉的重複行數。欄位名稱 用來去重的字段,可選多個字段,表示多個欄位都相同時表示重複。該功能類似與sql中的distinct關鍵字。4 增加序列 乙個序列是...

kettle之gpload元件使用

greenplum已經很少人用了,最近新專案要用這個的時候發現網上資料不多,尤其是kettle gp的組合。所以最後經過幾天加班才研究出來,特地記錄一下。這裡用的kettle是最新的版本kettle9.0.0.0 423 greenplum是6.0.1的 gp安裝在linux上的虛擬機器上,這裡說寫...

kettle連線設定字元編碼

索引在資料庫中可以提高資料庫的查詢速度,需要占用實際的儲存空間,儲存所有被稱為索引頁。執行過程 資料庫中如果沒有建立索引,在查詢資料時,會進行權全表掃瞄。建立了索引會更具索引來驚喜資料的檢索效率更加高。索引分類 主鍵索引 為資料庫增加了主鍵約束以後就會建立乙個主鍵索引。1.主鍵索引一張表中只能有乙個...