大資料面試遇到的問題

2021-08-17 01:35:29 字數 423 閱讀 2364

1.yarn排程有哪幾種方式,優缺點是什麼?

job 

占用相同資源

2.大資料集群資料丟失了如何恢復?

3.你平時遇到過那些故障並且如何解決?

4.namenode如何優化?

5.namenode啟動流程是什麼?

6.flume 有幾種模式,你們常用那些模式?

7.hadoop如何調優?

8.kafka執行流程圖?

9.畫圖,說說spark shuffle的過程,以及如何在程式設計的時候注意什麼

10.如何把hue集合到ambari中統一管理

11.說明ranger原理

12.有35臺伺服器(24核48g)有乙個sql查詢大表(幾十億),小表(1億),需要在一分鐘執行20次sql查詢,用spark如何實現,sql是固定死的,sql本身不能優化。

面試遇到的問題

1.mysql的乙個表,以a.b.c三個字段作為聯合索引,如果以其中的乙個字段作為查詢條件,會不會用到索引 如果以a 也就是聯合索引的第乙個索引 作為查詢條件 則會用到索引 如果以b或者c作為查詢條件 則不會用到索引 2.玩家登陸的具體流程 客戶端首先連線loginserver 從loginserv...

面試遇到的問題

1.grep 如何遞迴地在乙個目錄裡面搜尋所需的字串。2.判斷二叉樹是否對稱。3.c 虛表 4.epoll 和 select 的區別 5.mysql 索引,事務,隔離級別 6.c 多重繼承如果兩個基類有相同名字的成員函式 變數如何處理二義性。c 裡面是否可以把全部的成員函式都設定成virtual,會...

面試遇到大資料量的問題到底在考什麼?

面試遇到問大資料量的問題到底在考什麼?這裡討論在程式中並非資料庫中,也並不考慮借助資料庫或者其他輔助工具。他是考驗你演算法?會不會遍歷?集合的使用?還是考驗計算機記憶體大小的?我感覺都不是,是在考你思路。前面有人發表了 兩個1000w個元素的陣列,如何有效的找出他們的交集 等會我說下思路,對的話大家...