待續四）spark學習系列

這章節主要延續的（三）中的shuffle模組提供的shuffle read。

在spark 中，shuffle read是提供給shuffle的後繼用來讀取shuffle資料的。當需要讀取遠端資料的時候，

1.每次只會開最多5個執行緒進行讀取

2.每次請求的數量不會超過maxmbinflight，預設是45m/5，這樣的好處是，限制資料的讀取量，當乙個節成為了網路擁塞節點後，在它上面讀取資料的任務都會排隊，如果任務的資料量大，那麼，這個讀取任務時間延遲會很高，導致後面排隊任務等待時間過長。平均考慮，每個任務讀取的資料量不應該過大。

在featch的時候是將要在某台機器上面讀取的資料在邊生成featch任務的時候邊統計資料量，當統計的資料量到達了可以一次featch的時候，就開始建立一次的featch任務，最後再統一的下發featch任務。從另外乙個角度，也就是說同乙個address的featch實際上如果小於閾值，是會組合到一起的。

待續四）spark學習系列

spark學習系列

（三）Spark學習系列

Spark學習系列一

待續 四）spark學習系列

spark學習系列

（三）Spark學習系列

Spark學習系列一

相關推薦

待續四）spark學習系列