1 大資料概述

2022-09-22 21:48:29 字數 1617 閱讀 4502

1、

主要的核心元件有hdfs和mapreduce,其他還包括zookeeper、hbase、hive、pig、mahout、sqoop、flume、ambari等功能元件

hdfs:hdfs具有很好的容錯能力,並且相容廉價的硬體裝置,因此,可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。

mapreduce:一種分布式並行程式設計模型,用於大規模資料集(大於1tb)的並行運算,它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式:map和reduce。

zookeeper:解決分布式環境下的資料管理問題:統一命名,狀態同步,集群管理,配置同步等。

hbase:針對結構化資料的可伸縮,高可靠,高效能,分布式和面向列的動態模式資料庫。hbase中儲存的資料可以使用mapreduce來處理,它將資料儲存和平行計算完美結合在一起。

hive:hive定於了一種類似sql的查詢語言(hql)將sql轉化為mapreduce任務在hadoop上執行。

pig:定義了一種資料流語言-pig latin,將指令碼轉換為mapreduce任務在hadoop上執行。通常用於離線分析

sqoop:主要用於傳統資料庫和hadoop之間傳輸資料。資料的匯入和匯出本質上是mapreduce程式,充分利用了mr的並行化和容錯性。

flume:cloudera開源的日誌收集系統,具有分布式,高可靠,高容錯,易於定製和擴充套件的特點。

2、(1)spark引進了記憶體集群計算的概念,將資料集快取在記憶體中,縮短訪問時間

(2)spark批處理速度比mapreduce快近10倍,記憶體中的資料分析速度比hadoop快近100倍

(3)spark通過dag圖可以實現良好的容錯

(4)spark可以使用hadoop的hdfs或者其他雲資料平台進行資料儲存,但是一般使用hdfs

(5)park處理資料的設計模式與mapreduce不一樣,hadoop是從hdfs讀取資料,通過mapreduce將中間結果寫入hdfs;然後再重新從hdfs讀取資料進行mapreduce,再刷寫到hdfs,這個過程涉及多次落盤操作,多次磁碟io,效率並不高;而spark的設計模式是讀取集群中的資料後,在記憶體中儲存和運算,直到全部運算完畢後,再儲存到集群中

(6)spark可以使用基於hdfs的hbase資料庫,也可以使用hdfs的資料檔案,還可以通過jdbc連線使用mysql資料庫資料;spark可以對資料庫資料進行修改刪除,而hdfs只能對資料進行追加和全表刪除

3、由於hadoop生態系統中的一些元件所實現的功能,目前還是無法由spark取代的,比如,storm可以實現毫秒級響應的流計算,但是,spark則無法做到毫秒級響應。另一方面,企業中已經有許多現有的應用,都是基於現有的hadoop元件開發的,完全轉移到spark上需要一定的成本。因此,在許多企業實際應用中,hadoop和spark的統一部署是一種比較現實合理的選擇。

由於hadoop mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署。這些不同的計算框架統一執行在yarn中,可以帶來如下好處:

1、計算資源按需伸縮;2、不用負載應用混搭,集群利用率高;3、共享底層儲存,避免資料跨集群遷移。

1 大資料概述

大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...

1 大資料概述

1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...

1 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...