用於實時大資料處理的Lambda架構

如果採用hdfs來儲存資料，我們就可以使用mapreduce來在資料集上構建查詢的view。batch layer的工作可以簡單的用如下偽碼表示：

該工作看似簡單，實質非常強大。任何人為或機器發生的錯誤，都可以通過修正錯誤後重新計算來恢復得到正確結果。

對view的理解：

view是乙個和業務關聯性比較大的概念，view的建立需要從業務自身的需求出發。乙個通用的資料庫查詢系統，查詢對應的函式千變萬化，不可能窮舉。但是如果從業務自身的需求出發，可以發現業務所需要的查詢常常是有限的。batch layer需要做的一件重要的工作就是根據業務的需求，考察可能需要的各種查詢，根據查詢定義其在資料集上對應的views。

4.2.speed layer

batch layer可以很好的處理離線資料，但有很多場景資料不斷實時生成，並且需要實時查詢處理。speed layer正是用來處理增量的實時資料。

speed layer和batch layer比較類似，對資料進行計算並生成realtime view，其主要區別在於：

speed layer處理的資料是最近的增量資料流，batch layer處理的全體資料集

speed layer為了效率，接收到新資料時不斷更新realtime view，而batch layer根據全體離線資料集直接得到batch view。

lambda架構將資料處理分解為batch layer和speed layer有如下優點：

容錯性。speed layer中處理的資料也不斷寫入batch layer，當batch layer中重新計算的資料集包含speed layer處理的資料集後，當前的realtime view就可以丟棄，這也就意味著speed layer處理中引入的錯誤，在batch layer重新計算時都可以得到修正。這點也可以看成是cap理論中的最終一致性（eventual consistency）的體現。

用於實時大資料處理的Lambda架構

實時大資料處理框架Storm 推送系統

大資料處理

Yahoo開源實時大資料處理服務系統Vespa

用於實時大資料處理的Lambda架構

實時大資料處理框架Storm 推送系統

大資料處理

Yahoo開源實時大資料處理服務系統Vespa

相關推薦