Spark資料傾斜方案實戰三

作者 | 小艦

出品 | dlab資料實驗室（id：rucdlab）

增加隨機字首

1.資料準備

由於上面兩期，我們都是用的1.2億條資料的單錶來進行測試的，本節的場景需要涉及到兩表join，因此我們再次構造乙個小表。

本期我們就用這兩個表進行join，再簡單回顧一下那1.2億條資料的表cyj_skew，其中有1億條資料是不重複的，後面的2000萬條資料集中在了50個key中，所以這50個key每個key會重複40萬次；那我們可以簡單估計，cyj_skew中的50個重複key與cyj_skew_small 500個重複key相join，二者共有的乙個重複key會產生100*40w=4000w條結果，這個資料量比起其它key來講會大千萬倍。所以我們預想肯定會產生資料傾斜。

2.判斷資料傾斜

如何判斷資料傾斜呢？如果我們看到在任務執行的時候，大部分task都執行完畢，只剩若干個任務還在執行，並且執行時間和處理資料量遠超其他task，則可以認為發生了資料傾斜，如下圖所示，時間和資料量相差比較大。

3.判斷傾斜鍵

因為資料傾斜鍵是我們自己模擬出來的，所以我們知道cyj_skew和cyj_skew_small分別有50和500個重複鍵，那我們需要找出他們共有的重複鍵，對這些重複鍵進行優化。

4.新增隨機字首

首先，我們需要查詢出這兩個表對資料，得到兩份資料dataframe

然後，對這些資料的共有key進行加字首操作

最後，我們重新將新增字首的資料進行join計算

5.未優化效能結果

我們可以看到無論是時間還是資料量上都差別很大，而且總執行時長為11分鐘左右

6.優化效能

我們可以看到，整體的時間和資料量相差不大，資料傾斜現象基本消失，整個任務執行3分鐘左右。

總結

dlab資料實驗室發起了乙個讀者討論交流區

●spark資料傾斜解決方案實戰（二）

●spark資料傾斜解決方案實戰（一）

●大資料計算生態之資料計算（二）

●大資料計算生態之資料計算（一）

●大資料計算生態之資料儲存

●spark訓練營（一）-- 開發環境搭建及wordcount實戰

●spark訓練營（二）-- sparkstreaming流計算元件wordcount實戰

●spark訓練營（三）-- graphx圖計算元件最短路演算法實戰

●一文縱覽大資料計算生態

●原創|帶你釐清分布式、資料庫的那些一致性

●深入淺出大資料元件之kafka訊息佇列

●乙個故事讓你理解什麼是區塊鏈

●實時資料流計算引擎flink和spark剖析

●自定義hadoop的輸入格式

Spark資料傾斜方案實戰三

Spark專案實戰資料傾斜解決方案之聚合源資料

Spark 資料傾斜

spark資料傾斜問題

Spark資料傾斜方案實戰 三

Spark專案實戰 資料傾斜解決方案之聚合源資料

Spark 資料傾斜

spark資料傾斜問題

相關推薦

Spark資料傾斜方案實戰三

Spark專案實戰資料傾斜解決方案之聚合源資料