記一次Flink消費kafka資料恢復機制

現在我有乙個資料架構：flink消費kafka，開啟windows視窗聚合存es。某天的晚上flink掛機，未加報警機制，3小時後才發現。如何才能把丟失的kafka資料補充回來？

1）setstartfromlatest //從最後乙個kafka offset開始消費

2）setstartfromgroupoffsets //從你的group對應消費的最後乙個offset後的資料進行消費

3）setstartfromearliest //從kafka一開始的資料開始消費

4）setstartfromtimestamp //從某個時間點開始消費

5）setstartfromspecificoffsets //從某個特殊的offset開始消費

我們要解決以上問題，毋庸置疑要選擇使用第二種方式，kafka版本<=0.8，需要配置消費時，上報你消費的offset,後期版本就自動上報了，此時，kafka服務會幫你記錄你的group 到底消費到了哪個offset,下次重啟時，kafka順理成章的知道要從哪個offset開始給你推送資料。

不過，flink有一套自己的dr機制，只需要你啟動服務時開始checkpoint，此時flink作業會根據你給出的頻率定時生成分布式快照，並儲存在你指定的hdfs位置，此時，這個資料結構中亦儲存了乙份當前作業消費kafka的情況：哪個partition消費到了哪個offset。當你發現問題並重啟flink時，flink作業會告訴kafka我要從哪個offset開始消費，這樣我們的資料也就恢復了。

對這兩種方式，flink作業會優先使用自己本地checkpoint中儲存的offset，kafka中儲存的offset使用優先順序較低。

記一次Flink消費kafka資料恢復機制

記一次Kafka 消費轉存 ES

記一次解決MQ不消費問題

Flink內部精確一次exactly once

記一次Flink消費kafka資料恢復機制

記一次Kafka 消費 轉存 ES

記一次解決MQ不消費問題

Flink內部精確一次exactly once

相關推薦

記一次Kafka 消費轉存 ES