flume plugin 採集增量日誌,斷點續傳

2021-09-02 15:43:28 字數 474 閱讀 9620

flume 官方外掛程式,常用兩種方式採集增量日誌

1 exec 外掛程式可以執行 shell tail -f 檔案 命令。優點,實時採集,缺點。如果flume程序重啟。將無法找到當時的checkpoint。特別是主檔案已經被log4j切走,或者被shell指令碼切走

2 spool 外掛程式可以檢測目錄下新增的檔案,處理過的檔案用.complete檔名稱結束。優點,flume內部實現了checkpoint斷點續傳。(如何實現的?)缺點是不夠實時。除非日誌不按小時或者天級別切分,按分鐘級別切分。這樣產生的臨時檔案很多。不容易實現秒級別的採集

4 tail -n +1 從第一行開始讀檔案,讀出所有的增量。優點是即保證了tail-f。又保證了獲取了最後一行的行號。如果檔案內容過大,flume記憶體會oom。當然可以通過程式控制,丟棄無用的資料

[b]其他方法[/b]

網上還流傳了一種做法,定時任務修改flume配置檔案。然後重啟flume。這種方式我很不建議使用。太挫了

利用flume增量採集關聯式資料庫的配置

網上關於flume採集關聯式資料庫如mysql的資料比較多,但是大部分都是複製貼上,一錯皆錯,而且對於配置引數的介紹不太完整,或者未說明引數意義,由於最近在使用flume,所以在這裡對配置引數簡單總結一下。這裡只介紹sql source的配置 agent.channels ch1 agent.cha...

採集俠 採集

安裝好之後 採集測試 先新增欄目,1 rss採集,xml路徑 採集測試 3 定向採集 新增採集規則 1 目標頁編碼 檢視目標網頁charset,是什麼圖中就選什麼 2 列表 如果只採集乙個列表頁,那麼輸入乙個列表首頁 即可,如 要採集所有列表頁就需要設定萬用字元了,萬用字元 1 20 代表1 20頁...

在rman增量備份中,有差異增量和累積增量的概念

在 rman 增量備份中,有差異增量和累積增量的概念 1 概念 差異增量 是備份上級及同級備份以來所有變化的資料塊,差異增量是預設增量備份方式 累積增量 是備份上級備份以來所有變化的塊 因為累積增量是備份上級備份以來所有變化的資料塊,所以累積增量需要更多的備份時間,同時需要較小的恢復時間 而差異增量...