資料湖 Hudi 原理與相關面試題

2021-10-09 16:23:45 字數 323 閱讀 1027

本篇面試內容劃重點:表型別(cow、mor)、查詢型別(檢視)

apache hudi 依賴於 hdfs 做底層的儲存,所以可儲存的資料規模是巨大的,同時基於以下兩個原語,hudi 可以將流批一體的儲存問題。

hudi 內部對每個表都維護了乙個 timeline,這個 timeline 是由一組作用在某個表上的 instant(時刻)物件組成。instant 表示在某個時間點對錶進行操作的,從而達到某乙個狀態的表示,所以 instant 包含 instant action,instant time 和 instant state 這三個內容,它們的含義如下所示:

面試題相關

一些位址 osi七層功能及協議 資料鏈路層是如何定址的?傳送方 已知接收方ip arp 接收方mac位址 交換機尋找該mac位址所在埠,把幀往這個埠 mac通過rarp轉為ip位址。可靠通訊是靠哪一層來完成的?網路層 tcp協議 100base t 100mbps,baseband,雙絞線對。簡而言...

大資料面試題 (五)Spark 相關面試題總結

答 rdd resilient distributed dataset 叫做分布式資料集,是spark中最基本的資料抽象,它代表乙個不可變,可分割槽,裡面的元素可以平行計算的集合 dataset 就是乙個集合,用於存放資料的 destributed 分布式,可以並行在集群計算 resilient 表...

資料庫相關面試題

1.為什麼要分庫分表 設計高併發系統的時候,資料庫層面該如何設計 2.用過哪些分庫分表中介軟體?不同的分庫分表中介軟體都有什麼優點和缺點?3.你們具體是如何對資料庫如何進行垂直拆分或水平拆分的?4.現在有乙個未分庫分表的系統,未來要分庫分表,如何設計才可以讓系統從未分庫分表動態切換到分庫分表上?歷史...