待續 四)spark學習系列

2021-07-11 20:06:56 字數 456 閱讀 1966

這章節主要延續的(三)中的shuffle模組提供的shuffle read。

在spark 中,shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候,

1.每次只會開最多5個執行緒進行讀取

2.每次請求的數量不會超過maxmbinflight,預設是45m/5,這樣的好處是,限制資料的讀取量,當乙個節成為了網路擁塞節點後,在它上面讀取資料的任務都會排隊,如果任務的資料量大,那麼,這個讀取任務時間延遲會很高,導致後面排隊任務等待時間過長。平均考慮,每個任務讀取的資料量不應該過大。

在featch的時候是將要在某台機器上面讀取的資料在邊生成featch任務的時候邊統計資料量,當統計的資料量到達了可以一次featch的時候,就開始建立一次的featch任務,最後再統一的下發featch任務。從另外乙個角度,也就是說同乙個address的featch實際上如果小於閾值,是會組合到一起的。

spark學習系列

以spark原始碼為參照分析模式匹配及種類 graphx 核心理解 spark 核心排程理解 效能spark效能相關引數配置 搜狗實驗室 sogou labs 富貴有定數,學問則無定數。求一分,便得一分 關於博主 許鵬,花名 徽滬一郎,2000年畢業於南京郵電學院,現就業於愛立信上海,在udm部門從...

(三)Spark學習系列

本章節講一講spark的shuffle模組 shuffle模組作用是將若干node節點上面的資料重新分割,再劃分到不同的節點中,也就是將上乙個stage中的各個task的中間結果整合起來,然後再重新分組,以供下乙個stage的task對它們做運算。原因就是spark的設計就是把相具有某種共同特徵的一...

Spark學習系列一

1 spark 是什麼?spark是乙個快速的處理大規模資料的通用工具。它是乙個基於記憶體計算框架 包含核心元件 spark core 互動式查詢 spark sql 準實時流式計算 spark streaming 機器學習 spark mllib 圖計 算 spark graphx 2 spark...