大資料系列 Spark學習筆記之初識Spark

不完全對

因為我們只能使用spark core代替mr做離線計算,資料的儲存還是要依賴hdfs

spark+hadoop的組合，才是未來大資料領域最熱門的組合，也是最有前景的組合！

容易使用

一站式解決方案

可以執行在任意的平台

只提供兩個操作，map和reduce，表達力欠缺

乙個job只有map和reduce兩個階段

中間結果也放在hdfs檔案系統中(速度慢)

延遲高，只適用batch資料處理，對於互動式資料處理，實時資料處理的支援不夠

對於迭代式資料處理效能比較差

因此，hadoop mapreduce會被新一代的大資料處理平台替代是技術發展的趨勢，而在新一代的大資料處理平台中，spark目前得到了最廣泛的認可和支援

先停止正在執行的spark集群

spark-shell --master spark://uplooking01:7077 spark-shell --master spark://uplooking01:7077 --total-executor-cores 6 --executor-memory 1g #如果不指定預設使用每個worker上全部的核數,和每個worker上的1g記憶體

sc.textfile("hdfs://ns1/sparktest/").flatmap(_.split(",")).map((_,1)).reducebykey(_+_).collect

workerspark-submitter===>driver

大資料學習筆記 spark資源排程

val works new hashset workinfo 儲存worker節點資源資訊 val waitingdrivers new arraybuffer driverinfo 儲存driver節點申請的資源資訊 val works new hashsetworkinfo works 集合採用...

大資料學習之Spark（1）

2019.09.101 spark的特點 2 總體架構包括 3 常見術語兩個抽象部件 sparkcontext rdd 必須建立乙個sparkcontext類例項，且只能擁有乙個啟用的sparkcontext類例項 1 最簡便方法 val sc new sparkcontext 2 建立spar...

大資料學習筆記（六） Spark的RDD

建立 rdd是spark中的資料集，是唯讀的 rdd可以從集合，普通檔案系統，hdfs檔案系統中建立 scala建立rdd的方法 val lines1 sc.parallelize list aa bb val lines2 sc.textfile file opt spark readme.md ...

大資料系列 Spark學習筆記之初識Spark

大資料學習筆記 spark資源排程

大資料學習之Spark（1）

大資料學習筆記（六） Spark的RDD

相關推薦