Flume 採集資料到hdfs 小檔案優化

2021-10-22 17:07:51 字數 846 閱讀 1006

眾所周知,從flume採集資料到hdfs的時候,需要避免小檔案的產生,太多的小檔案,在資料處理的過程中,會降低資料處理的效能,那麼在日常的flume採集到hdfs的檔案,如果避免小檔案的產生?

在flume的sink操作時,有涉及到3個預設的引數,分別是:

a1.sinks.k1.hdfs.rollinterval

a1.sinks.k1.hdfs.rollsize

a1.sinks.k1.hdfs.rollcount

這三個引數分別表示

(rollinterval):每次間隔多久往hdfs寫入一次資料

(rollsize ):等待sink的資料快取多大,就往hdfs寫入一次資料

(rollcount):有多少的event事件,就往hdfs寫入一次資料

預設情況下,這三個引數是同時開啟的,當滿足其中乙個條件的時候,就會觸發寫入hdfs的操作。

在減少小檔案的優化方面,我們應該將rollinterval、rollcount這2個引數遮蔽,設定為0 

a1.sinks.k1.hdfs.rollinterval=0

a1.sinks.k1.hdfs.rollcount=0

而對於rollinterval引數設定為128m .設定為hdfs的塊大小134217728(128*1024*1204)

最後這三個引數的配置為:

a1.sinks.k1.hdfs.rollinterval=0

a1.sinks.k1.hdfs.rollsize =134217728

a1.sinks.k1.hdfs.rollcount=0

Flume採集檔案到HDFS

在flume和hadoop安裝好的情況下 1.遇到的坑 在安裝hadoop時,配置 core site.xml 檔案一定要注意。fs.defaultfs name hdfs master 9000 value property 上述的value值使用的是主機名稱 master 或者ip位址,不能使用...

採集資料小總結

採集過程遇到的問題 1.十分鐘內訪問資料頁面,需要輸入驗證碼 2.每天ip限定訪問五十個以內,用完則明天再來 b 剛開始的解決辦法 b 去抓取網上提供的 ip 埠,然後 訪問 問題 ip好多不能用,需要 ip個數較多,然後還要根據採集 的規則設定,比如十分鐘內每個 訪問規則數量 1,之後再次訪問.b...

flume採集日誌到hdfs遇到採集一會不採集

環境4c 4g虛擬機器,上面部署應用業務,flume採集應用日誌,幾乎機器可用記憶體就幾十m,還有4gswap交換記憶體,硬體環境就這樣,提好幾次新增記憶體,資源有限一直沒加。之前業務日誌小flume也可以正常採集日誌,但是最近公司flume經常假死,明明程序在資料就是採集不到,之前沒在意。都是重啟...