大資料之資料採集引擎flum

flume的安裝非常簡單，只需要解壓的tar.gz的包後，就可以啟動

大資料之資料採集引擎flum

flum是用來採集檔案的比如.log檔案，也可以指定乙個目錄

flum由三個元件組成，分別是：source 、channel、sink

source元件是用來採集日誌

channel元件是用來緩衝日誌的

sink元件是用來儲存日誌的

我們把這三個元件共同組成框架叫做agent=source+channel+sink

sink元件可以吧採集到日誌資訊儲存到hdfs、hive、hbase等

接下來我們就為這個agent來配置檔案：

#bin/flume-ng agent -n a4 -f myagent/a4.conf -c conf -dflume.root.logger=info,console #定義agent名， source、channel、sink的名稱 a4.sources = r1 a4.channels = c1 a4.sinks = k1 #具體定義source a4.sources.r1.type = spooldir a4.sources.r1.spooldir = /root/training/logs #定義***，為訊息新增時間戳 a4.sources.r1.interceptors = i1 a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.timestampinterceptor$builder #具體定義channel a4.channels.c1.type = memory a4.channels.c1.capacity = 10000 a4.channels.c1.transactioncapacity = 100 #具體定義sink a4.sinks.k1.type = hdfs a4.sinks.k1.hdfs.path = hdfs: a4.sinks.k1.hdfs.fileprefix = events- a4.sinks.k1.hdfs.filetype = datastream #不按照條數生成檔案 a4.sinks.k1.hdfs.rollcount = 0 #hdfs上的檔案達到128m時生成乙個檔案 a4.sinks.k1.hdfs.rollsize = 134217728 #hdfs上的檔案達到60秒生成乙個檔案 a4.sinks.k1.hdfs.rollinterval = 60 #組裝source、channel、sink a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

第一行就是啟動命令

啟動後可以自動收集日誌，但是只能整個檔案整個檔案的收取，並不是當我寫完一條我就收集一條

在收集完後的日誌後把原日誌檔案後新增乙個complete的字尾

大資料之資料採集引擎flum

大資料資料採集平台之Scribe

剖析大資料平台的資料採集

初始大資料 02 日誌採集大資料和爬蟲採集大資料

大資料之資料採集引擎flum

大資料 資料採集平台之Scribe

剖析大資料平台的資料採集

初始大資料 02 日誌採集大資料和爬蟲採集大資料

相關推薦

大資料資料採集平台之Scribe