大資料系列 Spark學習筆記之初識Spark

2021-09-27 02:13:09 字數 1025 閱讀 5329

不完全對

因為我們只能使用spark core代替mr做離線計算,資料的儲存還是要依賴hdfs

spark+hadoop的組合,才是未來大資料領域最熱門的組合,也是最有前景的組合!

容易使用

一站式解決方案

可以執行在任意的平台

只提供兩個操作,map和reduce,表達力欠缺

乙個job只有map和reduce兩個階段

中間結果也放在hdfs檔案系統中(速度慢)

延遲高,只適用batch資料處理,對於互動式資料處理,實時資料處理的支援不夠

對於迭代式資料處理效能比較差

因此,hadoop mapreduce會被新一代的大資料處理平台替代是技術發展的趨勢,而在新一代的大資料處理平台中,spark目前得到了最廣泛的認可和支援

先停止正在執行的spark集群

spark-shell  --master spark://uplooking01:7077 

spark-shell --master spark://uplooking01:7077 --total-executor-cores 6 --executor-memory 1g

#如果不指定 預設使用每個worker上全部的核數,和每個worker上的1g記憶體

sc.textfile("hdfs://ns1/sparktest/").flatmap(_.split(",")).map((_,1)).reducebykey(_+_).collect
workerspark-submitter===>driver

大資料學習筆記 spark資源排程

val works new hashset workinfo 儲存worker節點資源資訊 val waitingdrivers new arraybuffer driverinfo 儲存driver節點申請的資源資訊 val works new hashsetworkinfo works 集合採用...

大資料學習之Spark(1)

2019.09.101 spark的特點 2 總體架構 包括 3 常見術語 兩個抽象部件 sparkcontext rdd 必須建立乙個sparkcontext類例項,且只能擁有乙個啟用的sparkcontext類例項 1 最簡便方法 val sc new sparkcontext 2 建立spar...

大資料學習筆記(六) Spark的RDD

建立 rdd是spark中的資料集,是唯讀的 rdd可以從集合,普通檔案系統,hdfs檔案系統中建立 scala建立rdd的方法 val lines1 sc.parallelize list aa bb val lines2 sc.textfile file opt spark readme.md ...