Spark面試經典系列之資料傾斜資料傾斜之痛

本課主題

spark效能真正的殺手

資料傾斜兩大直接致命性的的後果：

資料傾斜最殺人就是 out-of-memory (oom)，一般oom都是由於資料傾斜所致!

速度變慢、特別慢、非常慢、極端的慢、不可接受的慢。

資料傾斜基本特徵：個別 task處理大量資料

20％和80％，基本上都存在業務熱點問題，這是現實問題!

資料傾斜是多麼痛

資料傾斜是因為有部份資料在分配的時候不均衡

資料傾斜的定位：

webui，可以清晰的看見哪些個 task 執行的資料量大小;

log，log的乙個好處可以清晰的告欣你那一行出現問題oom，同時可以清晰的看到在具體那個stage 出現資料傾斜(資料傾斜一般是在shuffle 過程中產生的)，從而定位具體shuffle 的**, 也有可能發現絕大多數 task 非常快，但是個別 task 非常慢;

**走讀，重點看 join、groupbykey、reducebykey等的關鍵**;

對資料特徵分布進行分析;

下一節課再談資料傾斜

Spark經典案例之資料排序

業務場景資料排序 1 資料排序是許多實際任務執行時要完成的第一項工作，比如學生成績評比資料建立索引等。這個例項和資料去重類似，都是先對原始資料進行初步處理，為進一步的資料操作打好基礎。1 需求描述對輸入檔案中資料進行排序。輸入檔案中的每行內容均為乙個數字，即乙個資料。要求在輸出中每行有兩個間...

spark經典面試題

1 寬依賴乙個分割槽對應多個分割槽，這就表明有shuffle過程，父分割槽資料經過shuffle過程的hash分割槽器劃分子rdd。例如 groupbykey reducebykey sortbykey等操作，shuffle可以理解為資料從原分割槽打亂重組到新分割槽 2 窄依賴乙個分割槽對應乙個...

Spark經典案例之資料去重

資料格式 flie1 2012 3 1 a 2012 3 2 b 2012 3 3 c 2012 3 4 d 2012 3 5 a 2012 3 6 b 2012 3 7 c 2012 3 3 c flie2 2012 3 1 b 2012 3 2 a 2012 3 3 b 2012 3 4 d 2...

Spark面試經典系列之資料傾斜 資料傾斜之痛

Spark經典案例之資料排序

spark經典面試題

Spark經典案例之資料去重

相關推薦

Spark面試經典系列之資料傾斜資料傾斜之痛