設定Kettle7 1接CDH hadoop集群

2021-09-30 16:32:10 字數 1527 閱讀 4403

在開始之前,你需要做一些事情。

驗證支援

檢查元件引用,以驗證您的kettle7.1版本支援您的mapr集群版本。

建立mapr集群

kettle7.1可以連線到安全的和不安全的mapr集群。

配置mapr集群。如果需要幫助,請參閱mapr的文件。

安裝任何必需的服務和服務客戶端工具。

測試群集。

設定mapr客戶端

將mpralhost環境變數設定為mapr客戶端的安裝位置。

如果在windows上安裝mapr 4.0.1,請使用版本4.0.1.31009ga或更高版本作為mapr客戶端。如果使用mapr 4.1.0,則使用mapr客戶端的4.1.0.31、175ga版本。該軟體可以從mapr獲得。

複習特定版本的注釋部分

閱讀特定版本的注釋部分,檢視您的mapr版本的特殊配置說明。

如果您連線到乙個安全的mapr集群,還有一些額外的事情需要做。

用kerberos保護mapr集群

tunaho支援kerberos身份驗證。你將需要:

在集群上配置kerberos安全性,包括kerberos域、kerberos kdc和kerberos管理伺服器。

配置名稱、資料、輔助名稱、作業***和任務***節點以接受遠端連線請求。

設定kerberos名稱、資料、輔助名稱,工作跟蹤,和任務跟蹤節點如果你已經部署了hadoop的使用企業級程式。

將每個應該訪問hadoop集群的pudiaho使用者的使用者帳戶憑據新增到kerberos資料庫中。確保每個使用者的hadoop集群要新增到kerberos資料庫在每個節點上的作業系統的使用者帳戶。如有必要,新增作業系統使用者帳戶。請注意,使用者帳戶uid必須大於最小使用者id值(m.u.s.id)。通常,最小使用者id值設定為1000。

在你的五音計算機上設定kerberos

如何在您的pathao計算機上設定kerberos出現了這樣的指令。

設定模擬

如果您將使用模擬,您還需要完成mapr模擬文章中的步驟。

如果你計畫使用欺騙或偽裝與mapr客戶,指定適當的使用者標識(uid),組id(gid),和名稱在mapr文件說明。(注意:確保您用於欺騙的帳戶是由客戶端和每個節點建立的。每個「欺騙」帳戶應該具有與客戶端相同的uid和gid。

在群集上不需要對*-test.xml配置檔案進行編輯。

配置五邊形元件墊片

必須為要連線到mapr集群的下列每個配置配置墊片:

spoon (pdi client)

pentaho server

pentaho report designer (prd)

pentaho metadata editor (pme)

作為最佳實踐,首先在調羹中配置墊片。spoon 具有幫助您測試配置的功能。然後將測試的spoon 配置檔案複製到其他元件,必要時進行更改。

您還可以選擇通過每個pentaho 元件的這些指令,而不是從spoon 複製墊片檔案。如果不打算從spoon 連線到群集,則可以先在另乙個元件中配置墊片。

如果不打算從spoon 連線到群集,則可以先將連線配置為另乙個元件。

kettle 設定變數

以下只是本人在使用過程中一些經驗,可能有誤解不對的地方,希望大家指正。這個控制項可以在job中呼叫,也可以在transformation中使用。下面將分別說明在兩個不同任務中呼叫時的使用方法和需要注意事項。在job中設定變數一般都是設定全域性變數,在不同轉換間使用。首先需要get system in...

kettle 記憶體設定 一次kettle效能優化

將2.04g的資料匯入到mysql資料庫中,資料格式是json格式,由於包含不同型別的資料,需要將不同型別的資料進行拆分操作,提取出目標資料。其中涉及值替換,json解析,字段選擇等操作。剛開始執行的過程發現很慢,而且解析到最後出現oom的情況,完全崩潰,執行了幾個小時oom了,淚流滿面。既然oom...

kettle連線設定字元編碼

索引在資料庫中可以提高資料庫的查詢速度,需要占用實際的儲存空間,儲存所有被稱為索引頁。執行過程 資料庫中如果沒有建立索引,在查詢資料時,會進行權全表掃瞄。建立了索引會更具索引來驚喜資料的檢索效率更加高。索引分類 主鍵索引 為資料庫增加了主鍵約束以後就會建立乙個主鍵索引。1.主鍵索引一張表中只能有乙個...