kettle學習筆記(四) kettle輸入步驟

2022-03-09 08:57:47 字數 1884 閱讀 1695

輸入步驟主要分為以下幾類:

• 生成記錄/自定義常量

• 獲取系統資訊

• 表輸入

• 文字檔案輸入

• xml 檔案輸入

• json輸入

• 其他輸入步驟

1.生成記錄

由於生成記錄每行都是一樣的資料,所以便誕生了自定義常量資料來手工模擬資料

2.自定義常量資料

常用於構造一些測試資料

獲得各類系統資訊,常見的包括:

• 轉換開始時間。

• 關鍵時間點資訊

• 最多十個命令列引數

• 主機名/ip/程序號/虛擬機器記憶體等

• 上乙個作業的完成情況引數

// 固定是整個轉換開始的時間

表輸入是比較常見的輸入方式,通過執行select語句,從資料庫拉取輸入資料

可以使用${}形式使用變數,如果使用?變數,要求前面步驟傳過來的引數需要順序一致

示例表輸入配置如下:

配置變數輸入:

資料型別對應關係:

文字檔案輸入:

處理有列分隔符(限定符、逃逸字元)的文字檔案。

功能選項豐富、有錯誤處理機制。

csv 檔案輸入:

簡化了文字檔案輸入

通過 nio、並行、延遲轉換提高效能

固定寬度:

列固定寬度的檔案,不用解析字串,效能好。

1.文字檔案輸入

先看檔案這一項:

推薦使用變數(凡是旁邊乙個$形狀的,都可以根據提示使用變數,內建變數參考這裡),單擊變數,旁邊會顯示變數的值,可以進行參考

可以在第一行選擇檔案或者目錄,選擇目錄則可以在規則表示式進一步通過正則進行控制

然後點選增加,增加檔案到選中的檔案框中,之後點選顯示檔名進行檔案選擇結果檢視

也可以點選下方從步驟選擇檔案

繼續設定輸入的內容頁:

// 這裡目前不知何解,設定製表符\t欄位會識別失敗。換成分號;等就正常了

解決方案如下:

使用sublime先安裝hexview外掛程式,使用外掛程式,點選toggle檢視製表符的十六進製制,然後分隔符處通過$,例如製表符檢視是09;

則分隔符為:$[09]

欄位頁通過獲取字段檢視分割結果:預覽記錄檢視記錄結果

過濾頁可以進行字段過濾:

例如選擇第二列(從0開始位置),含有bb的

2.固定寬度

要求每一行都是固定寬度,然後通過寬度擷取

###  xml輸入暫不贅述

###  json輸入暫不贅述

excel 輸入

access 輸入

配置檔案輸入

sap 輸入

oracle cdc 增量輸入

訊息佇列輸入

pdf檔案輸入

搜尋引擎結果輸入

kettle學習筆記(五) kettle輸出步驟

資料庫表 表輸出 更新,刪除,插入 更新 批量載入 mysql,oracle 資料同步 檔案 sql 檔案輸出 文字檔案輸出 xml 輸出 excel output excel writer 其他 報表 應用 1.表輸出 使用sql的方式向資料庫插入資料 insert 支援批量提交 支援分割槽 da...

Kettle學習筆記(二) 基本操作

kettle學習筆記 一 環境部署及執行 kettle學習筆記 二 基本操作 kettle學習筆記 三 定時任務的指令碼執行 kettle學習筆記 四 總結 開啟時間略長,請耐心等待。這裡先對控制項做下簡單說明,方便後面使用。通用控制項 轉換中常用控制項 檔案 新建 轉換。新建轉換後點選左邊的主物件...

kettle學習筆記 資源庫的建立

kettle常見的資源庫有3種 資料庫資源庫 檔案資源庫 pentaho資源庫。檔案資源庫是在乙個檔案目錄下定義乙個資源庫,因為kettle使用的是虛擬檔案系統 apache vfs 所以這裡的檔案目錄是乙個廣泛的概念,包括了zip檔案 web服務 ftp服務。pentaho資源庫是乙個外掛程式 k...