Hadoop筆試面試題

該試題來自董成西彙總

1、mapreduce中排序發生在哪幾個階段？？這些排序是否可以避免，為什麼？？

答：乙個mapreduce作業由map階段和reduce階段兩部分組成，這兩階段會對資料排序，從這個意義上說，mapreduce框架本質就是乙個distributed sort。在map階段，在map階段，map task會在本地磁碟輸出乙個按照key排序（採用的是快速排序）的檔案（中間可能產生多個檔案，但最終會合併成乙個），在reduce階段，每個reduce task會對收到的資料排序，這樣，資料便按照key分成了若干組，之後以組為單位交給reduce（）處理。很多人的誤解在map階段，如果不使用combiner便不會排序，這是錯誤的，不管你用不用combiner，map task均會對產生的資料排序（如果沒有reduce task，則不會排序，實際上map階段的排序就是為了減輕reduce端排序負載）。由於這些排序是mapreduce自動完成的，使用者無法控制，因此，在hadoop 1.x中無法避免，也不可以關閉，但hadoop2.x是可以關閉的。

2、編寫mapreduce作業時，如何做到在reduce階段，先對key排序，再對value排序？？

答：該問題通常稱為」二次排序「，最常用的方法是將value放到key中，實現乙個組合key，然後自定義key排序規則（為key實現乙個writablecomparable）

3、如何使用mapreduce實現兩個表join，可以考慮一下幾種情況：（1）乙個表大，乙個錶小（可放到記憶體中）；（2）兩個表都是大表

答：第一種情況比較簡單，只需將小表放到distributedcache中即可；第二種情況常用的方法有：map-side join（要求輸入資料有序，通常使用者hbase中的資料表連線），reduce-side join，semi join（半連線），具體資料可網上查詢

Hadoop筆試 面試題

筆試面試題

面試題 筆試

筆試面試題

相關推薦

Hadoop筆試面試題

面試題筆試