大資料面試題

1、mapreduce的大致流程

2、列出正確的hadoop集群中hadoop都分別啟動那些程序，他們的作用分別是什麼，盡量詳細些。

3、請列出你所知道的hadoop排程器，並簡要說明其工作方法。

4.flume不採集nginx日誌，通過logger4j採集日誌，優缺點是什麼？

在nginx採集日誌時無法獲取session的資訊，然而logger4j則可以獲取session的資訊，logger4j的方式比較穩定，不會宕機。缺點：不夠靈活，logger4j的方式和專案結合過濾緊密，

flume的方式就比較靈活，便於插拔式比較好，不會影響專案的效能。

5、請簡述hadoop怎麼實現二級排序？

6、hive如何優化

在優化時要注意資料的問題，儘量減少資料傾斜的問題，減少job的數量，同事對小的檔案進行成大的檔案，如果優化的設計那就更好了，因為hive的運算就是mapreduce所以調節mapreduce的引數也會使效能提高，如調節task的數目。

7、mapreduce如何優化

8、時鐘三點一刻是多少度角？

7.5度

9、已知,玻璃球從某高樓落到地面會摔碎,樓的最大高度為100層,給你兩個玻璃球,請你最快的測出,能使玻璃球摔碎的最低樓層.

先使用第乙個小球,以每次10層的跨度,依次拋到地面,觀察結果, 10層, 20層, 30層, 40層...., 如果在50層丟擲的時候,第一顆小球摔破了,則說明玻璃球的極限高度在40層到50層之間, 再使用第二顆小球, 從41層,42層,43層... ,依次丟擲,如果第二顆小球在第43層摔破,則43層為小球摔破的極限高度!

大資料面試題

大資料面試題

大資料面試題

大資料面試題

相關推薦