Spark面試經典系列之資料傾斜 資料傾斜之痛

2021-07-16 06:43:47 字數 674 閱讀 5069

本課主題

spark效能真正的殺手

資料傾斜兩大直接致命性的的後果:

資料傾斜最殺人就是 out-of-memory (oom),一般oom都是由於資料傾斜所致!

速度變慢、特別慢、非常慢、極端的慢、不可接受的慢。

資料傾斜基本特徵:個別 task處理大量資料

20%和80%,基本上都存在業務熱點問題,這是現實問題!

資料傾斜是多麼痛

資料傾斜是因為有部份資料在分配的時候不均衡

資料傾斜的定位:

webui,可以清晰的看見哪些個 task 執行的資料量大小;

log,log的乙個好處可以清晰的告欣你那一行出現問題oom,同時可以清晰的看到在具體那個stage 出現資料傾斜(資料傾斜一般是在shuffle 過程中產生的),從而定位具體shuffle 的**, 也有可能發現絕大多數 task 非常快,但是個別 task 非常慢;   

**走讀,重點看 join、groupbykey、reducebykey等的關鍵**;

對資料特徵分布進行分析;

下一節課再談資料傾斜

Spark經典案例之資料排序

業務場景 資料排序 1 資料排序 是許多實際任務執行時要完成的第一項工作,比如學生成績評比 資料建立索引等。這個例項和資料去重類似,都是先對原始資料進行初步處理,為進一步的資料操作打好基礎。1 需求描述 對輸入檔案中資料進行排序。輸入檔案中的每行內容均為乙個數字,即乙個資料。要求在輸出中每行有兩個間...

spark經典面試題

1 寬依賴 乙個分割槽對應多個分割槽,這就表明有shuffle過程,父分割槽資料經過shuffle過程的hash分割槽器劃分子rdd。例如 groupbykey reducebykey sortbykey等操作,shuffle可以理解為資料從原分割槽打亂重組到新分割槽 2 窄依賴 乙個分割槽對應乙個...

Spark經典案例之資料去重

資料格式 flie1 2012 3 1 a 2012 3 2 b 2012 3 3 c 2012 3 4 d 2012 3 5 a 2012 3 6 b 2012 3 7 c 2012 3 3 c flie2 2012 3 1 b 2012 3 2 a 2012 3 3 b 2012 3 4 d 2...