羅強騰訊新聞如何處理海量商業化資料？

這部分詳細地講解整個資料上報體系。目前資料上報會根據資料來源進行分類上報。資料來源主要分為四大類：

實時計算架構整體上選擇lamda架構，ods層到dwd層資料的處理，實時和離線部分是公用的，也體現了流批一體的概念。下面就分模組介紹實時計算部分的整體架構。

dwd：dwd層的設計是為了減少下游頻繁對ods層資料進行消費。對於新的需求開發我們只需要申請dwd層的tube消費節點即可。這樣處理極大地節省了計算單元。

計算層：主要負責資料的etl、維表關聯、特徵抽取等業務邏輯的計算。

資料倉儲儲存層：主要採用tdw（hive表）、hdfs和impala作為儲存介質。ods層的原始資料預設儲存在hdfs上，儲存週期預設為3天。

另外，dwd和dws層資料支援寫入tdw和hdfs去做離線計算。同時也支援匯入impala進行儲存，以供燈塔平台和datatalk平台等進行資料探測和報表展示。

針對離線計算部分，我們對資料進行了分層管理，簡單概括為以下四層：

我們對資料層的呼叫進行了約束：

同時我們對於表的命名進行規範，該命名規範使得雜亂無章的資料表變得規範有序，使得內部業務合作變得便利。具體規範如下：

離線部分，一方面會依託平台提供指標監控告警以及sla保障的能力；另一方面，在**層面進行設計，通過異常捕獲、分級告警，出錯分層管理，重置機制等，提高整個系統的高可用和穩定性。

我們在實時和離線對海量日誌處理設計方案上的收益可以總結如下：

這部分，我們通過flink cdc的db資料同步技術，進一步舉例說明我們的海量資料處理流程。上圖是通過flink cdc進行實時更新維表和實時排行榜更新的設計方案，整體主要包括輸入資料來源、flink實時etl模組、flink核心計算模組和資料儲存模組四部分。flink內部繼承開源元件debezium和kafka，cdc技術可以實時捕捉mysql的增刪改，然後將資料同步到下游，同步到多個資料來源，然後通過抽取資料庫日誌的方式完成資料上報。

flink cdc實現方式主要有兩種：sql模式和自定義反序列化模式。個人傾向於選擇第二種方式，可以更加靈活地實現業務需求。通過實現反序列化相關介面，資料庫的變更資料可以通過sourcerecord得到，解析之後的資料可以通過collect進行收集然後傳到下游進行消費。

今天的分享就到這裡，謝謝大家。

羅強騰訊新聞如何處理海量商業化資料？

如何處理DDoS

如何處理DDoS

python如何處理異常

羅強 騰訊新聞如何處理海量商業化資料？

如何處理DDoS

如何處理DDoS

python如何處理異常

相關推薦

羅強騰訊新聞如何處理海量商業化資料？