Spark學習筆記

spark不僅僅支援mapreduce，還支援sql、machine learning、graph運算等，比起hadoop應用更靈活寬泛。

spark 中的rdd 資料結構應對mapreduce中data replication、disk io、serialization引起的低效問題。

rdd （類似於tensorflow裡面的tensor pipline？）將operation分為transformation和action，只有action才能觸發真正的運算，對於transformation只進行lazy evaluation。operation會連成pipline，相當於把小步的運算從邏輯上組合成一大步運算，而省略了不必要的中間步驟以及中間資料的同步等待和傳輸等，減少了driver和cluster之間的互動，提高了效率。

rdd 執行過程：

（1）建立rdd物件；

（2）sparkcontext負責計算rdd之間的依賴關係（窄依賴，寬依賴（shuffle）），構建directed acyclic graph；

（3）dagscheduler負責把dag圖分解成多個階段，一般窄依賴的rdd處於同一階段，在寬依賴處劃分新階段，每個階段中包含了多個任務，每個任務會被任務排程器分發給各個工作節點（worker node）上的executor去執行。

Spark學習筆記

spark 學習筆記

spark學習筆記

Spark學習筆記

Spark學習筆記

spark 學習筆記

spark學習筆記

Spark學習筆記

相關推薦