大資料常見面試題之kafka

2021-10-09 06:57:13 字數 790 閱讀 1011

四. kafka到sparkstreaming怎麼保證資料完整性,怎麼保證資料不重複消費?

五.kafka的消費者高階和低階api區別

六.kafka怎麼保證資料消費一次且僅消費一次

七.kafka保證資料一致性和可靠性

八.spark實時作業宕掉,kafka指定的topic資料堆積怎麼辦

九.kafka讀寫流程

十.kafka為什麼只讓leader進行讀寫

十一.為了避免磁碟被佔滿,kafka會週期性的刪除舊訊息,請問刪除策略有哪些?

十二.kafka資料高可用的原理

十三.kafka的偏移量offset存放在哪兒.為什麼?

十四.如何保證kafka訊息有序

十五.kafka分割槽數

十六.kafka分割槽分配策略

十七.kafka資料量計算

十八.kafka訊息資料積壓,kafka消費能力不足怎麼處理

十九.kafka高吞吐的實現

和rabbitmq進行對比:

保證資料不丟失(at-least)

direct方式:

1.順序讀寫

2.零拷貝

3.分割槽

4.批量傳送

5.資料壓縮

6.consumer 的負載均衡

kafka常見面試題

ar 所有的分割槽副本 isr 所有與leader保持同步的副本集合 osr 被leader剔除isr的集合 當副本在一定時間未與leader進行同步就會被提出isr。leo 每個副本中最大的 offset hw 消費者能見到的最大的 offset,isr中最小的leo kafka的分割槽每次寫入訊...

kafka常見面試題

1 為什麼要使用 kafka,為什麼要使用訊息佇列 緩衝和削峰 解耦和擴充套件性 冗餘 健壯性 非同步通訊 2 kafka的acks引數對訊息持久化的影響 往kafka寫資料的時候,就可以來設定這個acks引數。然後這個引數實際上有三種常見的值可以設定,分別是 0 1 和 all 等價於 1 api...

大資料常見面試題之spark core

二.driver的功能 三.hadoop和spark都是平行計算,他們有什麼相同點和不同點 四.rdd 五.簡述寬依賴和窄依賴概念,groupbykey,reducebykey,map,filter,union都是什麼依賴?六.spark如何防止記憶體溢位 七.stage task 和 job的區別...