設計一條完整離線etl線路

2021-09-11 20:58:57 字數 1000 閱讀 8254

etl:抽取(extract)、轉換(transform)、載入(load)

下面是etl 資料流:

藍色的框框代表的是資料**,紅色的框框主要是資料計算平台,綠色的 hdfs 是我們一種主要的資料儲存,hive、hbase、es這些就不再列出來了。

我們常說的資料流主要分兩種:1離線資料 2.實時資料

其中離線資料一般都是 t+1 的模式,即每天的凌晨開始處理前一天的資料,有時候可能也是小時級的,技術方案的話可以用 sqoop、flume、mr 這些。實時資料一般就是指實時接入的資料,一般是分鐘級別以下的資料,常用的技術方案有 spark streaming 和 flink。

場景舉例:

場景一:

資料來源主要為 mysql,希望實時同步 mysql 資料到大資料集群中(肯定是越快越好)。

目前每日 20 億資料,可遇見的一段時間後的規模是 100 億每日以上。

能快速地查到最新的資料,這裡包含兩部分含義:從 mysql 到大資料集群的速度快、從大資料集群中查詢的速度要快。

我們最終選定一下方案:

注意:小檔案,分鐘級別的檔案落地,肯定會有小檔案的問題,這裡要考慮的是,小檔案的處理盡量不要和資料接入流程耦合太重,可以考慮每天、每週、甚至每月合併一次小檔案。

資料流的邏輯複雜度問題,比如從 kafka 落地 hdfs 會有乙個取捨的考慮,比如說,我可以在乙個 ss 程式中就分別落地 hdfs 和 es,但是這樣的話兩條流就會有大的耦合,如果 es 集群卡住,hdfs 的落地也會受到影響。但是如果兩個隔開的話,就會重複消費同乙份資料兩次,會有一定網路和計算資源的浪費。

一條線直銷,一條線迴圈簡析

直銷模式日益發展與完善,企業多樣化的營銷需求保守的直銷模式已經不能滿足,所以必須轉為一條線迴圈。模式先行一條線迴圈增加或減少系統功能皆是根據客戶自身的業務需求定製的。一條線直銷,一條線迴圈介紹 公排一條線直銷也稱為單軌制度,按報單時間的先後順序直線自動排列 橫度無限,深度無限,排列無限開,深度無限拿...

點點滴滴一條線

沒有比這更淒涼,沒有比這更孤單,沒有比這更令人擔憂。我沒有計畫,我沒有思想,我沒有健全的身體。我浸泡在幻想之中,但在現實中,我卻如阿q處於弱勢一樣到處碰壁,匍匐前進,心靈沒所依託,於是唯有用幻想暫時欺騙心靈,滋潤心靈。可惜,心靈的慾望也在增大,於是我的幻想也水漲船高。現實與幻想的差異,讓人不得不返回...

halcon多條線合併為一條問題

如這樣的多條線合成一條線 通過斜率 垂直和平行不需要 來計算 x或y基本不變,通過求平均值得到一條線 選取最長得,注意判斷誤差,部分 在我得專案裡是可以得 去除誤差 kh1 0 for i 0 to lengths 1 by 1 k 0 for j 0 to lengths 1 by 1 if i ...