kafka處理訊息寫入和備份的全流程

base offset：是起始位移，該副本中第一條訊息的offset，如下圖，這裡的起始位移是0，如果乙個日誌檔案寫滿1g後（預設1g後會log rolling），這個起始位移就不是0開始了。

hw（high watermark）：副本的高水印值；

leo包括leader副本和follower副本。

leader leo：leader的leo就儲存在其所在的broker的快取裡，當leader副本log檔案寫入訊息後，就會更新自己的leo。

remote leo和follower leo：remote leo是儲存在leader副本上的follower副本的leo，可以看出leader副本上儲存所有副本的leo，當然也包括自己的。follower leo就是follower副本的leo，因此follower相關的leo需要考慮上面兩種情況。

hw包括leader副本和follower副本。

leader hw：它的更新是有條件的，參考書籍中給出了四種情況，如下是其中的一種，就是producer向leader副本寫訊息的情況，當滿足四種情況之一，就會觸發hw嘗試更新。如下圖所示更新時會比較所有滿足條件的副本的leo，包括自己的leo和remote leo，選取最小值作為更新後的leader hw。

四種情況如下，其中最常見的情況就是前兩種。

1.producer向leader寫訊息，會嘗試更新。

2.leader處理follower的fetch請求，先讀取log資料，然後嘗試更新hw。

3.副本成為leader副本時，會嘗試更新hw。

4.broker崩潰可能會波及leader副本，也需要嘗試更新。

follower hw：更新發生在follower副本更新leo之後，一旦follower向log寫完資料，它就會嘗試更新hw值。比較自己的leo值與fetch響應中leader副本的hw值，取最小者作為follower副本的hw值。可以看出，如果follower的leo值超過了leader的hw值，那麼follower hw值是不會超過leader hw值的。

前提條件：考慮乙個主題，只有乙個分割槽，兩個副本的情況，並且剛開始都沒有任何訊息在log日誌檔案。

在考慮fetch請求時，需要考慮兩種情況，接下來就只考慮第二種情況，第一種情況也可以參考第二種情況。

producer暫時無法響應follower partition的請求，如沒有資料可以返回，這時fetch請求會快取在乙個叫做purgatory的物件裡（請求不會無限期快取，預設500ms）。在快取期間，如果producer傳送produce請求，則被喚醒，接下來會正常處理fetch請求。

producer正常響應follower partition的請求。

下面分析第二種情況，即producer正常響應follower的情況。

當leader副本接受到了producer的訊息，並且此時沒有follower副本fetch請求，在這樣的前提下，它會先做如下操作。

寫入訊息到log日誌檔案，更新leader leo為1。

嘗試更新remote leo，由於沒有fetch請求，因此它是0，不需要更新。

做min(leader leo,remote leo)的計算，結果為0，這樣leader hw無需更新，依然是0。

第一次fetch請求，分leader端和follower端：

leader端：

讀取底層log資料。

根據fetch帶過來的offset=0的資料（就是follower的leo，因為follower還沒有寫入資料，因此leo=0），更新remote leo為0。

嘗試更新hw，做min(leader leo,remote leo)的計算，結果為0。

把讀取到的log資料，加上leader hw=0，一起發給follower副本。

follower端：

寫入資料到log檔案，更新自己的leo=1。

更新hw，做min(leader hw,follower leo)的計算，由於leader hw=0，因此更新後hw=0。

可以看出，第一次fetch請求後，leader和follower都成功寫入了一條訊息，但是hw都依然是0，對消費者來說都是不可見的，還需要第二次fetch請求。

第二次fetch請求，分leader端和follower端：

leader端：

讀取底層log資料。

根據fetch帶過來的offset=1的資料（上一次請求寫入了資料，因此leo=1），更新remote leo為1。

嘗試更新hw，做min(leader leo,remote leo)的計算，結果為1。

把讀取到的log資料（其實沒有資料），加上leader hw=1，一起發給follower副本。

follower端：

寫入資料到log檔案，沒有資料可以寫，leo依然是1。

更新hw，做min(leader hw,follower leo)的計算，由於leader hw=1，因此更新後hw=1。

這個時候，才完成資料的寫入，並且分割槽hw（分割槽hw指的就是leader副本的hw）更新為1，代表消費者可以消費offset=0的這條訊息了，上面的過程就是kafka處理訊息寫入和備份的全流程。

最後，使用hw來記錄訊息在副本中提交或備份的進度，其實是存在缺陷的，在kafka 0.11.0.0後的版本中，使用leader epoch解決了。

leader 故障：

leader 發生故障後，會從副本同步佇列isr 協會去找乙個新的leader ，然後他下面的所有員工小弟就必須聽自己

的話，以為我為hw為標準，大於我的都個字擷取掉。然後繼續同步資料；

follower故障：

當故障後會被isr協會踢出去，待恢復後，首先讀本地磁碟的log記錄，高於hw部分截掉，然後從hw開始向leader進行同步，等到追上了leader後，才能加入isr協會；

kafka處理訊息寫入和備份的全流程

php處理kafka訊息

關於kafka處理大訊息的方法

訊息的寫入和讀取流程

kafka處理訊息寫入和備份的全流程

php處理kafka訊息

關於kafka處理大訊息的方法

訊息的寫入和讀取流程

相關推薦