資料倉儲面試題

@[資料倉儲面試問題彙總

1.用hive實現交集、並集、差集

交集用inner join 就可以實現

並集 union ，順便說一下union all 和union 的區別，union 會去除重複項因此要慢一點，而union all 不會

差集 left join on a.id=b.id where b.id is null

2.hive 和 spark的區別

這個問題也就是mr和spark的區別

2.1spark把運算的中間資料存放在記憶體，迭代計算效率更高；mapreduce的中間結果需要落地，需要儲存到磁碟，這樣必然會有磁碟io操做，影響效能

2.2spark容錯性高，它通過彈性分布式資料集rdd來實現高效容錯，rdd是一組分布式的儲存在節點記憶體中的唯讀性質的資料集，這些集合是彈性的，某一部分丟失或者出錯，可以通過整個資料集的計算流程的血緣關係來實現重建

2.3 mr 只是hadoop框架裡的乙個計算框架，而spark是乙個生態圈，有spark sql ,sparkstreaming,圖計算等，他們連個使用的場景也不大同，mr由於設計簡單，執行穩定等特點更適合大資料量的離線處理

3.hive是如何轉化成mr的

參考部落格

時隔一年後，再出去面試，問的比較多的就是專案問題了，比如資料如何更新啊之類的當然有的公司也要求做面試題，有時候也會面臨面試官臨時給你出題讓你現場寫

4.表t如下用一條sql寫出每個型別的數量佔總數量的佔比

type

numa10b

20c30b

select
type ,new_num,new_num/sum(new_num)over(
)from (
select type,sum(num)as new_num from t 
group by type
) t1

5.如圖如何用sql實現從左邊到右邊的實現

從圖中可以看出是奇數行和偶數行做了互換，可以通過case when 取餘來互換，當然id ±1可以通過 lag() 和lead()兩個函式來實現

6. 限制條件寫在 on 上和 where 上的區別

7. hive join 的幾種方式

8. 還有被問到hive sql的優化,說了通常的優化策略後，面試管說這些都是工作經驗所得，有沒有更高階的，有沒有看過執行計畫根據執行計畫來優化

最後祝君好運！