Kettle在linux環境的部署和使用

2021-10-04 21:05:19 字數 1101 閱讀 4026

上一章講了對kettle的大致理解,各個元件的含義用處,以及spoon的使用。這章就開始講下kettle在linux環境下的安裝部署,和其中遇到的一些坑。

因為kettle不需要編譯和安裝,直接把包傳到伺服器然後解壓縮就可以了。(因為我用的kettle版本是8.2,所以環境依賴jdk1.8)

[root@test local]# rz -be data-integration.zip

[root@test local]# unzip data-integration.zip

給指令碼賦予可執行許可權

[root@test local]# chmod +x ./data-integration/*.sh

安裝依賴

[root@test local]# yum install webkitgtk

上傳你的ktr檔案,然後執行pan.sh指令碼即可

./data-integration/pan.sh -file=./***/test.ktr -level=detailed

下面具體說明pan.sh的各個命令

顯示版本資訊

-version

執行的轉換檔案

-file=./***/filename.ker

命名引數

-param:key=value

設定日誌檔案

-log=./***/log_filename

設定日誌級別

-level=***

error: 只顯示錯誤

nothing: 不顯示任何輸出

minimal: 只使用最少的記錄

basic: 這是預設的基本日誌記錄級別

detailed: 詳細的日誌輸出

debug: 以除錯為目的,非常詳細的輸出

rowlevel: 使用行級記錄,會產生大量的資料

kettle在多環境中區分環境使用

kettle的kettle.properties可以根據環境新增值,job中使用變數,達到區分環境的效果。通常我們專案中每個環境的資料庫都是分開的,這個時候我們就需要根據環境來設定資料庫的連線資訊了,如 編輯kettle.properties 資料庫連線使用變數 這樣就能達到區分環境的效果。自定義修...

kettle鏈結hive的環境配置

1 首先將hive lib目錄的包匯入到kettle目錄d software data integration plugins pentaho big data plugin hadoop configurations cdh510 lib下 找到你安裝的目錄 2 找到d software data...

kettle在linux下使用檔案資源庫

用資料庫作用kettle資源庫會在資料庫中建立很多表,所以就選擇用檔案資源庫的方式。如果單純的使用檔案方式而非檔案資源庫的方式,在job引用轉換的時候要選擇檔案本地路徑,從windows移植到linux中路徑就出現問題,雖然可以手動修改一下,但是每次都修改就煩人了。使用檔案資源庫就簡單多了。當然,使...