hadoop和spark的區別

2021-09-19 22:36:22 字數 1138 閱讀 7099

在學習hadoop的時候查詢一些資料的時候經常會看到有比較hadoop和spark的,對於初學者來說難免會有點搞不清楚這二者到底有什麼大的區別。我記得剛開始接觸大資料這方面內容的時候,也就這個問題查閱了一些資料,在《freerch大資料一體化開發框架》的這篇說明文件中有就hadoop和spark的區別進行了簡單的說明,但我覺得解釋的也不是特別詳細。我把個人認為解釋的比較好的乙個觀點分享給大家:

它主要是從四個方面對hadoop和spark進行了對比分析:

1ã目的:首先需要明確一點,hadoophe spark 這二者都是大資料框架,即便如此二者各自存在的目的是不同的。hadoop是乙個分布式的資料基礎設施,它是將龐大的資料集分派到由若干臺計算機組成的集群中的多個節點進行儲存。spark是乙個專門用來對那些分布式儲存的大資料進行處理的工具,spark本身並不會進行分布式資料的儲存。

2ã兩者的部署:

hadoop的框架最核心的設計就是:hdfs和mapreduce。hdfs為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算。

所以使用hadoop則可以拋開spark,而直接使用hadoop自身的mapreduce完成資料的處理。spark是不提供檔案管理系統的,但也不是只能依附在hadoop上,它同樣可以選擇其他的基於雲的資料系統平台,但spark預設的一般選擇的還是hadoop。

3、資料處理速度:

spark,擁有hadoop、 mapreduce所具有能更好地適用於資料探勘與機器學習等需要迭代的的優點;但不同於mapreduce的是job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫hdfs,

spark 是一種與 

hadoop

相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越,換句話說,spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

4、資料安全恢復:hadoop每次處理的後的資料是寫入到磁碟上,所以其天生就能很有彈性的對系統錯誤進行處理;spark的資料物件儲存在分布於資料集群中的叫做彈性分布式資料集中,這些資料物件既可以放在記憶體,也可以放在磁碟,所以spark同樣可以完成資料的安全恢復。

一 hadoop和spark的區別

hadoop是基於磁碟的,它的運算結果儲存在磁碟當中 而spark的運算是基於記憶體的。因此spark的運算速度是 hadoop的100倍 即使在磁碟當中運算,spark也是hadoop的10倍左右,原因就是spark具有優秀的作業排程策略。故spark的速度快與hadoop的兩個原因 1 spar...

Hadoop和spark中的區別

hadoop 在mapreduce中,步驟包括map,shuffle,reduce,其中combine和partition是函式。combine作用是將map後產生的鍵值對中,相同key的合併,產生新的鍵值對作為reduce的輸入。而partition的作用是根據key將鍵值對劃分給對應的reduc...

Hadoop和Spark聯絡與區別

解決問題的層面不一樣 首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器硬體。同時,hadoop還會索引...