Spark學習筆記(二)

2021-07-28 03:00:00 字數 572 閱讀 3205

部署圖

從部署圖中可以看到

./bin/run‐example sparkpi 10

那麼 sparkpi 就是 master 上的driver。如果是 yarn 集群,那麼 driver 可能被排程到 worker 節點上執行(比如上

圖中的 worker node 2)。

standalone版本中,executorbackend 被例項化成 coarsegrainedexecutorbackend 程序。

我們使用重點內容spark 自帶的 examples 包中的 groupbytest,假設在 master 節點執行,命令是

bin/run‐example groupbytest 100 10000 1000 36

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...

spark學習筆記

1 缺省會寫成一堆小檔案,需要將其重新分割槽,直接指定幾個分割槽 spark.sql select row number over partition by depid order by salary rownum from emp repartition 2 write.parquet hdfs ...

Spark學習筆記

spark不僅僅支援mapreduce,還支援sql machine learning graph運算等,比起hadoop應用更靈活寬泛。spark 中的rdd 資料結構應對mapreduce中data replication disk io serialization引起的低效問題。rdd 類似於...