Azure Data Factory(一)入門簡介

2022-01-10 14:29:03 字數 2193 閱讀 4689

今天分享乙個新的azure 服務-----azure data factory(azure 資料工廠),怎麼理解,參考根據官方解釋-----資料工廠解釋:大資料需要可以啟用協調和操作過程以將這些巨大的原始資料儲存優化為可操作的業務見解的服務。 azure 資料工廠是為這些複雜的混合提取-轉換-載入 (etl)、提取-載入-轉換 (elt) 和資料整合專案而構建的託管雲服務。

說簡單點,azure data factory 可以建立和計畫資料驅動型工作,也就是 pineline,從不同的資料來源(如:azuer storage,file, sql database,azure data lake等)中提取資料,進行加工處理,進行複雜計算後,將這些有價值的資料可以歸檔,儲存到不同的目標源(如:azuer storage,file, sql database,azure data lake等)

--------------------我是分割線--------------------

azure data factory 中的pipeline 通常執行以下三個步驟:

1,連線,收集:連線,收集是指在構建 pipeline 時需要有資料來源,然後再將資料來源中提取出來的資料進行加工處理,通過使用 data factory 中的 pipeline ,新增 「activites」 操作,將資料從本地和雲的源資料儲存移到雲的集中資料儲存進行進一步的分析。

2,轉換和擴充:將dataset 中收集到的資料來源的資料,可以使用一些其他的服務,例如 datab ,machine learning進行資料處理,轉化,可以將這些資料轉化成有價值的,可信的生產環境的資料

3,發布:這裡的發布,並不是指**的發布,而是指手動觸發將轉化、處理好的資料傳送到目標源,同時可以設定trgger ,定時執行發布計畫。

azure data factory 中一些關鍵元件:

1,pipeline:這裡的 pipeline 要和azure devops 中的 pipeline 概念上有些類似,它是指我們的azure data factory 可以包含乙個或者多個 pipeline 。pipeline是有多個activites組成,來執行一項任務的。如下圖所示,這裡顯示多個pipeline。

2,activities:乙個pipeline 可以有多個 activities,這些是對資料執行的一些動作,例如 複製資料,如下圖,當前 pipeline 中包含了乙個 copy data

3,datasets(資料集):簡單理解,就是包含了 資料來源、目標源。資料集可識別不同資料儲存(如表、檔案、資料夾和文件)中的資料,使用零個或多個 "datset" 作為輸入,乙個或多個 "dataset" 作為輸出。

4,linked services:鏈結服務就好比鏈結字串,金鑰等資訊,用於定義azure data factory 鏈結到外部資源時所需喲啊的連線資訊,如下圖鏈結服務指鏈結到azure storage account 所需要的連線字串。

同時,點選 「test connection」 進行測試,是否可以正常連線。

data factory 中 data set,activity,linked service,pipeline 直接的關係

azure data factory不儲存任何資料。我們可以使用它用於建立資料驅動型工作流,在支援的資料儲存之間協調資料的移動(建立乙個包含 pipiline 的 data factory,將資料從 blob1 儲存移動到 blob2 儲存)。 它還可以用於在其他區域或本地環境中通過計算服務來處理資料。 它還允許使用程式設計方式及 ui 機制來監視和管理工作流。

參考資料:azure data factory(英文),azure data factory(中文)

matlab極簡入門教程(一)

在matlab中使用 進行注釋,選中對應區域,按ctrl r可以一鍵注釋 在matlab中,和c語言一樣,可以使用 和 但是也有不一樣的地方,例如 是不等於的意思,而不能使用 在matlab中輸出的結果如果沒有變數表示,預設使用ans表示 例如 輸入 4 回車 輸出 ans 4輸入 x 4輸出 x ...

Docker極簡入門

我有幾張阿里雲幸運券分享給你,用券購買或者公升級阿里雲相應產品會有特惠驚喜哦!把想要買的產品的幸運券都領走吧!快下手,馬上就要搶光了。root chatdevops yum y install docker root chatdevops docker version docker version ...

django極簡入門

django極簡入門 i.安裝python環境 ii.安裝django pip install djangoiii.建立django專案資料夾 django admin startproject myprojectiv.在專案資料夾內,如myproject myproject,建立視 件,如view...