大資料處理系統

大資料處理系統可以分為批式(batch)大資料和流式(streaming)大資料兩類。其中，批式大資料又被稱為歷史大資料，流式大資料又被稱為實時大資料。

目前主流的三大分布式計算系統hadoop、storm、spark被廣泛運用於大資料領域。

批處理大資料系統代表：hadoop

注：這類系統雖然可對完整大資料集實現高效的即席查詢，但無法查詢到最新的實時資料，存在資料遲滯高等問題

流處理大資料系統代表：spark streaming、storm（計算系統）

注：此類系統可以對最新實時資料實現高效預設分析處理模型的查詢，資料遲滯低

hadoop作為分布式系統的基礎架構，資料處理工作在硬碟層面，借助hdfs(分布式檔案系統)，可以將架構下每一台電腦中的硬碟資源聚集起來，不論是儲存計算還是呼叫都可以視為一塊硬碟使用。之後使用集群管理和排程軟體yarn，相當於windows作業系統，最後利用map/reduce計算框架就可以在這上面進行計算程式設計。從而大幅降低了整體計算平台的硬體投入成本。

由於hadoop的計算過程放在硬碟，受制於硬體條件限制，資料的吞吐和處理速度明顯不如使用記憶體來的快。於是spark和storm開始登上舞台。

spark和storm兩者最大的區別在於實時性：spark是準實時，先收集一段時間的資料

大資料處理系統都有哪些？流式計算系統

流式計算系統就是因為流式計算具有很強的實時性，需要對應用源源不斷產生的資料實時進行處理，使資料不積壓不丟失，常用於處理電信電力等行業應用以及網際網路行業的訪問日誌等。在facebook 的 scribe apache的 flume twitter的 storm yahoo的s4 ucberkel...

大資料處理系統都有哪些？流式計算系統

大資料處理

大資料處理的流程主要包括以下四個環節採集匯入預處理統計分析挖掘，下面針對這四環節進行簡單闡述。大資料處理之一採集在大資料的採集過程中，其主要特點和挑戰是併發數高，因為同時有可能會有成千上萬的使用者來進行訪問和操作，比如火車票售票和它們併發的訪問量在峰值時達到上百萬，所以需要在採集...

大資料處理系統

大資料處理系統都有哪些？ 流式計算系統

大資料處理系統都有哪些？ 流式計算系統

大資料處理

相關推薦

大資料處理系統都有哪些？流式計算系統

大資料處理系統都有哪些？流式計算系統