Flume 採集資料到hdfs 小檔案優化

眾所周知，從flume採集資料到hdfs的時候，需要避免小檔案的產生，太多的小檔案，在資料處理的過程中，會降低資料處理的效能，那麼在日常的flume採集到hdfs的檔案，如果避免小檔案的產生？

在flume的sink操作時，有涉及到3個預設的引數，分別是:

a1.sinks.k1.hdfs.rollinterval a1.sinks.k1.hdfs.rollsize

a1.sinks.k1.hdfs.rollcount

這三個引數分別表示

（rollinterval）：每次間隔多久往hdfs寫入一次資料

（rollsize ）：等待sink的資料快取多大，就往hdfs寫入一次資料

（rollcount）：有多少的event事件，就往hdfs寫入一次資料

預設情況下，這三個引數是同時開啟的，當滿足其中乙個條件的時候，就會觸發寫入hdfs的操作。

在減少小檔案的優化方面，我們應該將rollinterval、rollcount這2個引數遮蔽，設定為0

a1.sinks.k1.hdfs.rollinterval=0
a1.sinks.k1.hdfs.rollcount=0

而對於rollinterval引數設定為128m .設定為hdfs的塊大小134217728（128*1024*1204）

最後這三個引數的配置為：

a1.sinks.k1.hdfs.rollinterval=0
a1.sinks.k1.hdfs.rollsize =134217728
a1.sinks.k1.hdfs.rollcount=0

Flume採集檔案到HDFS

在flume和hadoop安裝好的情況下 1.遇到的坑在安裝hadoop時，配置 core site.xml 檔案一定要注意。fs.defaultfs name hdfs master 9000 value property 上述的value值使用的是主機名稱 master 或者ip位址，不能使用...

採集資料小總結

採集過程遇到的問題 1.十分鐘內訪問資料頁面,需要輸入驗證碼 2.每天ip限定訪問五十個以內,用完則明天再來 b 剛開始的解決辦法 b 去抓取網上提供的 ip 埠,然後訪問問題 ip好多不能用,需要 ip個數較多,然後還要根據採集的規則設定,比如十分鐘內每個訪問規則數量 1,之後再次訪問.b...

flume採集日誌到hdfs遇到採集一會不採集

環境4c 4g虛擬機器，上面部署應用業務，flume採集應用日誌，幾乎機器可用記憶體就幾十m,還有4gswap交換記憶體，硬體環境就這樣，提好幾次新增記憶體，資源有限一直沒加。之前業務日誌小flume也可以正常採集日誌，但是最近公司flume經常假死，明明程序在資料就是採集不到，之前沒在意。都是重啟...

Flume 採集資料到hdfs 小檔案優化

Flume採集檔案到HDFS

採集資料小總結

flume採集日誌到hdfs遇到採集一會不採集

相關推薦