Spark執行模式

2018/04/07

自己知道的spark執行的四種模式，以乙個計算hdfs中某檔案（20g大小）的行數為例，這個檔案的塊集中在node3上。

我的spark集群work是node1-3，master是node1。

（具體的執行命令，可以看前一篇。）

local

執行於本地，也是預設的情況。執行時間最少。

（初步認為，對單個檔案執行處理的時間是很少的3.3min，但是網路消耗時間很大。我把這個同樣的shell轉移到node3上，只需要1.1min，可見網路消耗到底有多大。）

yarn

這個很慢，而且，看著webui上的結果好像是逐步去請求資源（就是那些個任務是慢慢出出現的），花了8.9分鐘。

主要這個也是用的最簡單的命令，可能多請求一些資源就會更快一些。

（而且這個比較好的地方就是，在hadoop集群上，他的資源會跟別的請求相互協調，就是大家相互照顧的感覺）

standealone

pyspark --master spark://node1:7077

這個已經很快了，3.9分鐘，但是發現的問題就是，因為本身hdfs並不是均衡分布在機器上的，所有有一部分網路消耗，最慢的幾個worker都是因為每次請求這個資源慢。

（但我感覺，因為本身都是區域網，按說應該也挺快啊，為什麼傳輸檔案這麼慢），這也是乙個可以調節的東西。

mesos

沒用過。

spark執行模式

spark的執行模式多種多樣，靈活多變，部署在單機上時，既可以用本地模式執行，也可以用偽分布式模式執行而當以分布式集群的方式部署時，底層的資源排程既可以依賴於外部的資源排程框架，也可以使用spark內建的standalone模式。對於外部資源排程框架的支援，目前主要包括mesos模式和hadoop...

spark執行模式

local 單機，所有jobs都在這台機器上執行。standalone 就是說多台機器組成乙個集群，然後jobs可以分在多台機器上執行 yarn 就是說spark程式執行在yarn上 client 就是jobs在不同機器執行，然後結果返回到這台機器上。cluster 就是說jobs在不同機器上執行，...

yarn模式執行spark

yarn上啟動spark有二種模式 yarn client模式和 yarn cluster模式 yarn cluster模式框架在集群中啟動driver程式 yarn client模式框架在client中啟動driver程式 master 引數可以簡單配置成yarn client 或者 yar...

Spark執行模式

spark執行模式

spark執行模式

yarn模式執行spark

相關推薦