Spark深入第一步DAGScheduler

2021-07-26 07:42:41 字數 975 閱讀 1410

在spark集群上執行wordcount程式

spark-shell --master spark://s600:7077

def textfile(

path: string,

minpartitions: int = defaultminpartitions): rdd[string] = withscope

sparkconf類的作用:

設定spark環境的配置,使用build模式,返回物件自身;

sparkcontext

atomicboolean使用原子型別保證執行緒安全;

dagscheduler:有向無環圖排程器

為每個作業計算階段有向無環圖,dagscheduler以來taskscheduler類;

在dagscheduler中有幾個關鍵概念:

jobs:由activejob類實現,在dagscheduler中執行的job分為result job和map-stage job;

提交給排程器的頂層工作項

stages:任務集合,由stage類具體實現,stages分為resultstage和shufflemapstage;

如果jobs重用相同的rdds,則它們之間可以共享同乙個stages;

task:

cache tracking: 避免重複計算,

preferred locations:dagscheduler為每個stage中task計算所在執行的位置基於rdds

cleanup:清理所有資料結構在依賴這些資料結構的running jobs結束;

taskscheduler是底層的任務排程介面,由taskschedulerimpl實現;針對單獨sparkcontext進行任務排程;

dagscheduler為每個stages傳送任務集給schedulers去排程。schedulers負責將任務傳送給集群,並執行

和錯誤重試;最後結果收集並返回events給dagscheduler

踏出第一步

我是乙個比較內向的人,或許應該說有一點自卑的傾向。因為生活中的一些事情,總是不斷的打擊我的自信心,讓我產生一種感覺 我缺乏能力,是乙個無用的人。我想有過這種經歷的,肯定不只我乙個人。人的信心有時候是很脆弱的,兩三次的失敗就可能讓其消失殆盡,然後你就覺得,反正我也做不出什麼事情來,乾脆就這樣混著吧,於...

邁出第一步

我,乙個程式小白,不是為了熱愛而走上程式設計之路。就這樣稀里糊塗的度過了兩年,期間,自己有為找不出那乙個個errors煩躁,也有為成功編譯後而獲得正確結果的那種喜悅。如今是真的想去改變現狀,想去提公升自己,想不負剩餘的兩年時光,不負你,不負我!對於今後的學習之路的想法,首先基礎的語言學習,其次資料結...

爬蟲第一步

注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...