spark關鍵版本簡要梳理

2021-09-27 08:30:49 字數 631 閱讀 6820

好久沒有看

spark

了,發現

spark

都開始發力

ai了。簡單梳理下

spark

的發展脈絡如下: 1

)spark 0.x

主要對標

mapreduce

,用記憶體計算的能力替換

mapreduce

依賴磁碟,最主要的概念就是

rdd。 2)

最主要解決是易用性問題,用

sparksql

統一了程式語言。替代了

hive sql

等,另外提供了一系列高階介面,極大的降低了程式設計難易度。並推出

tungsten

專案,通過編譯優化的方法提高效能。 3)

spark 2.0

主要對標

flink

,統一了批處理和流處理介面,批處理和流處理融合處理,推出結構化流處理介面

struct streaming。 4

)spark 2.4

開始提供影象分類的能力,見部落格:

故事還在繼續,可以看到

spark

社群一直在技術的前沿陣地,從不是探路者,但是總是能抓住關鍵問題,以一種更優雅的方式去替換和取代。

spark梳理筆記

梳理一下spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block。當spark讀取這些檔案作為輸入時,會根據具體資...

Spark基礎概念梳理

因為最近在學習與使用spark,所以對一些基礎概念與術語做一些梳理。用來加深映像同時方便後續複習 spark是乙個基於記憶體的分布式計算框架,可無縫整合於現有的hadoop生態體系。主要包括四大元件 spark streaming spark sql spark mllib和spark graphx...

Spark機器學習過程梳理

最近半個月開始研究spark的機器學習演算法,由於工作原因,其實現在還沒有真正開始機器學習演算法的研究,只是做了前期大量的準備,現在把早年學習的,正在學習的和將要學習的一起做個梳理,整理乙個spark機器學習完整流程。本文推薦的書籍注重通俗和實戰。linux的學習推薦 鳥哥的linux私房菜 基礎篇...