Spark 三種作業提交方式

2021-09-08 00:23:36 字數 999 閱讀 3873

本地方式是在本地 jvm 中啟動乙個程序來模擬執行環境,多個執行緒進行作業執行,主要用於開發測試。

standalone,yarn, 兩種方式的區別在於 clustermanager 的不同,clustermanager 的作用在於進行各個程序的啟動管理,資源的排程。

standalone的 clustermanager 是 master,yarn是 recoursemanager

兩種depoly mode(模式):client,cluster.

對於不同的 depoly mode 模式來說, 區別僅在於啟動 driver 的機器是否在提交作業的機器,若不是,則會有集群管理器分配 worker 啟動 driver,用於測試環境,但資料量較大的時候,會產生較高的 i/o。

指令碼:standalone:spark-submit --master spark://ip:port

yarn-client:spark-submit --master yarn-client

yarn-cluster:spark-submit --master yarn-cluster

standalone 方式,是要在 spark-submit 中,用 --master 指定 master 程序的 url。其次,使用 standalone client 模式或 cluster 模式,是要在 spark-submit 中,使用 --deploy-mode client/cluster 來設定預設,如果你不設定 --deploy-mode client/cluster,那麼就是 client 模式standalone

standalone client 這種提交模式,主要在於可以在本機 (提交任務的機器) 看到日誌輸出,用於排查錯誤,他會在本機上啟動 driver 程序然後請求 master 分配資源 executor 執行緒來執行任務,master 在 worker 上啟動 executor 之後註冊到 driver,driver 會分發 jar 到各個 executor, 並將 sparkcontext 建立的 task 傳送到 executor 上執行。

Spark取交集的三種方式

假設現有rdda和rddb用於根據其中某個元素取交集 rdda的資料量小於rddb 將rdda 資料量稍小 廣播出去,然後在rddb中將廣播拿回來,做交集 將rdda和rddb 根據第乙個元素進行交集 將rdda拿到本地對映成map val rddamap map string,string,int...

spark 的倆種 任務提交方式

spark提交方式 standalone client測試環境 hadoop spark submit master spark node1 7077 class 類路徑 執行檔案的路勁 執行任務數 master節點 掌握worker節點的資源資訊 worker節點 driver sparksubm...

三種分頁方式

1.分頁方案一 利用not in和select top分頁 語句形式 selecttop10 fromtesttablewhere idnotin selecttop20id fromtesttable orderbyid orderbyidselecttop頁大小 fromtesttablewhe...