大資料面試題總結

1.關於zookeeper

zookeeper 是乙個用來進行分布式協調的服務，這些服務包括配置服務，維護元資訊和命名空間服務。

zookeeper是如何選取主leader的？

當leader崩潰或者leader失去大多數的follower，這時候zk進入恢復模式，恢復模式需要重新選舉出乙個新的leader，讓所有的server都恢復到乙個正確的狀態。

zk的配置管理？

程式分布式的部署在不同的機器上，將程式的配置資訊放在zk的znode下，當有配置發生改變時，也就是znode發生變化時，可以通過改變zk中某個目錄節點的內容，利用watcher通知給各個客戶端從而更改配置。

zk的命名服務？

命名服務是指通過指定的名字來獲取資源或者服務的位址，利用zk建立乙個全域性的路徑，這個路徑就可以作為乙個名字，指向集群中的集群，提供的服務的位址，或者乙個遠端的物件等等。

分布式通知和協調？

對於系統排程來說：操作人員傳送通知實際是通過控制台改變某個節點的狀態，然後zk將這些變化傳送給註冊了這個節點的watcher的所有客戶端。

對於執**況匯報：每個工作程序都在某個目錄下建立乙個臨時節點。並攜帶工作的進度資料，這樣彙總的程序可以監控目錄子節點的變化獲得工作進度的實時的全域性情況。

2.關於hbase

hive表關聯查詢，如何解決資料傾斜的問題?

大資料面試題總結

1.spark執行原理啟動乙個driver程序用於控制整個流程當任務提交，首先會去向資源管理器 yarn,申請executor資源，根據sparkcontext獲取執行環境，然後driver會從程式倒著構建成dag圖，在將按照寬窄依賴減dag圖分解成stage，然後將taskset傳送給tas...

大資料面試題（五）Spark 相關面試題總結

答 rdd resilient distributed dataset 叫做分布式資料集，是spark中最基本的資料抽象，它代表乙個不可變，可分割槽，裡面的元素可以平行計算的集合 dataset 就是乙個集合，用於存放資料的 destributed 分布式，可以並行在集群計算 resilient 表...

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4g，讓你找出a b檔案共同的url？方案1 可以估計每個檔案安的大小為50g 64 320g，遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...

大資料面試題總結

大資料面試題總結

大資料面試題 （五）Spark 相關面試題總結

大資料面試題

相關推薦

大資料面試題（五）Spark 相關面試題總結