設計一條完整離線etl線路

etl：抽取（extract）、轉換（transform）、載入（load）

下面是etl 資料流：

藍色的框框代表的是資料**，紅色的框框主要是資料計算平台，綠色的 hdfs 是我們一種主要的資料儲存，hive、hbase、es這些就不再列出來了。

我們常說的資料流主要分兩種：1離線資料 2.實時資料

其中離線資料一般都是 t+1 的模式，即每天的凌晨開始處理前一天的資料，有時候可能也是小時級的，技術方案的話可以用 sqoop、flume、mr 這些。實時資料一般就是指實時接入的資料，一般是分鐘級別以下的資料，常用的技術方案有 spark streaming 和 flink。

場景舉例：

場景一：

資料來源主要為 mysql，希望實時同步 mysql 資料到大資料集群中（肯定是越快越好）。

目前每日 20 億資料，可遇見的一段時間後的規模是 100 億每日以上。

能快速地查到最新的資料，這裡包含兩部分含義：從 mysql 到大資料集群的速度快、從大資料集群中查詢的速度要快。

我們最終選定一下方案：

注意：小檔案，分鐘級別的檔案落地，肯定會有小檔案的問題，這裡要考慮的是，小檔案的處理盡量不要和資料接入流程耦合太重，可以考慮每天、每週、甚至每月合併一次小檔案。

資料流的邏輯複雜度問題，比如從 kafka 落地 hdfs 會有乙個取捨的考慮，比如說，我可以在乙個 ss 程式中就分別落地 hdfs 和 es，但是這樣的話兩條流就會有大的耦合，如果 es 集群卡住，hdfs 的落地也會受到影響。但是如果兩個隔開的話，就會重複消費同乙份資料兩次，會有一定網路和計算資源的浪費。

設計一條完整離線etl線路

一條線直銷，一條線迴圈簡析

點點滴滴一條線

halcon多條線合併為一條問題

設計一條完整離線etl線路

一條線直銷，一條線迴圈簡析

點點滴滴一條線

halcon多條線合併為一條問題

相關推薦