資料傾斜知識小結

原因：大部分是因key分布不均勻，也有map端或reduce端傾斜或因資料本身特徵問題，只要涉及key的操作都可能出現傾斜。

容易出現的情況：a.group by不搭配聚合函式使用 b.count（distinct）資料量大時，因為此操作是根據group by分組按distinct欄位排序的 c.小表關聯大表的join操作

解析：大資料裡的資料一般都是map型別，key-value形式的，拿到hive來說，一般就是關聯條件為key，其它欄位為value，groupby後的字段就是key

表現：其他key執行完了，乙個key一直未執行完，reducer的資料分布不均勻，有乙個或少數reduce未完成，進度一直卡在99%（比如0-10，有11個key,0的資料量有100w記錄，而其它它10個key只有100條記錄。分到11個節點去執行，負責0那個key的節點就會執行很慢很慢）

大部分傾斜的key 都是0 或者null（這兩個值是比較常見的，預設值經常給0。不給的情況下就是null）

處理：找出發生資料傾斜的key作單獨處理。a.key值中包含空值或異常值時若不需要該值提前過濾掉，若需要則使用select case when city_id is null thenconcat('000000',round(rand()*100000)) city_id from *** 進行轉換。b.若group by欄位中有空值，調整相關hive引數設定。 c.資料傾斜非常嚴重時且不好處理時用distribute by rand() 使key完全隨機，各個節點都存在很多key，但會降低效率。

資料傾斜知識小結

關於資料傾斜的知識學習

mysql資料傾斜 Hive SQL 資料傾斜總結

什麼是資料傾斜，怎麼解決資料傾斜？

資料傾斜知識小結

關於資料傾斜的知識學習

mysql資料傾斜 Hive SQL 資料傾斜總結

什麼是資料傾斜，怎麼解決資料傾斜？

相關推薦