DataWorks使用小結(一) 概述

2022-02-11 21:19:25 字數 1797 閱讀 1500

dataworks資料工場,是maxcomputer的視覺化開發平台,一站式開發、管理介面

1.功能概述

1.強大排程:支援分鐘到月的排程

2.多種任務:支援odps、shell等多種任務

3.視覺化開發:b/s架構的視覺化開發介面,簡單易上手

2.基本概念

1.任務

0個或多個表作為輸入,1個或多個表作為輸出。主要分為節點任務、工作流任務、內部節點

2.例項

某個任務某個時刻的執行快照

3.提交

提交的任務會到排程系統(不提交的不能加入排程系統)

4.資源和函式

俗稱的jar、udf

以上都可在dataworks中找到:

// 因版本差異可能不同,此處是在左上

主要包括:建表上傳資料->建立工作流->建立同步任務->建立週期和依賴->運維日誌排錯

1.建表上傳資料

在任務開發中新建乙個節點任務,寫入ddl建表語句,執行即可完成建表,通過找錶即可找到新建的表:

// 各個版本dataworks可能稍有不同

資料同步任務,將在下節詳述

2.建立工作流

建立任務時選擇工作流任務即可建立工作流:

一般而言會建立乙個虛節點用於做控制節點,虛節點對執行資料不產生任何影響,僅用於對下游節點的控制,一般而言,虛節點作為根節點控制整個工作流

3.建立同步任務

注意rds等資料來源需要新增白名單等(ecs新增安全組)

首先需要專案管理員新建資料來源:

新版dataworks是在資料整合中新建,老闆的在專案管理中:

新建的資料同步在新版中是資料整合的左上角,老闆的需要在新建任務時選擇任務型別:

// 底層核心應該是datax

簡單起見,可以用嚮導模式,視覺化同步資料

4.配置週期和依賴

雙擊開啟任務後,在頁面右側點選任務屬性即可配置(新版略有不同):

即可配置週期排程以及依賴屬性了,當有依賴任務時必須等待上游任務跑完才能執行(即使本身已到執行時間)

5.運維日誌管理

可以通過運維中心檢視任務,右擊即可管理檢視

關於我對一概而論的 分級 ,以及認識

我把一概而論分為 以下 18種 結論。到底各種結論的生命週期有多長呢!t1一概而論 t1 1年內有效的結論 t2一概而論 t2 3年內有效的結論 t3一概而論 t3 6年內有效的結論 t4一概而論 t4 10年內有效的結論 t5一概而論 t5 15年內有效的結論 t6一概而論 t6 30年內有效的結...

海思Hi3519A SVP從入門到精通(一 概述)

1.svp簡介 svp smart vision platform 是海思 處理晶元智慧型視覺異構加速平台。該平台包含了 cpu dsp nnie neural network inference engine 等多個硬體處理單元和執行在這些 硬體上 sdk 開發環境,以及配套的工具鏈開發環境。2....

使用git之一概覽 學習筆記一

使用git之一概覽 學習筆記一 git安裝後的配置 git config global user.name name global域配置名字為 name git config global usre.email name email.com global域配置郵件位址為 name email.com...