大資料之資料採集引擎flum

2021-10-07 14:18:44 字數 1550 閱讀 4300

flume的安裝非常簡單,只需要解壓的tar.gz的包後,就可以啟動

大資料之資料採集引擎flum

flum是用來採集檔案的比如.log檔案,也可以指定乙個目錄

flum由三個元件組成,分別是:source  、channel、sink

source元件是用來採集日誌

channel元件是用來緩衝日誌的

sink元件是用來儲存日誌的

我們把這三個元件共同組成框架叫做agent=source+channel+sink

sink元件可以吧採集到日誌資訊儲存到hdfs、hive、hbase等

接下來我們就為這個agent來配置檔案:

#bin/flume-ng agent -n a4 -f myagent/a4.conf -c conf -dflume.root.logger=info,console

#定義agent名, source、channel、sink的名稱

a4.sources = r1

a4.channels = c1

a4.sinks = k1

#具體定義source

a4.sources.r1.type = spooldir

a4.sources.r1.spooldir = /root/training/logs

#定義***,為訊息新增時間戳

a4.sources.r1.interceptors = i1

a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.timestampinterceptor$builder

#具體定義channel

a4.channels.c1.type = memory

a4.channels.c1.capacity = 10000

a4.channels.c1.transactioncapacity = 100

#具體定義sink

a4.sinks.k1.type = hdfs

a4.sinks.k1.hdfs.path = hdfs:

a4.sinks.k1.hdfs.fileprefix = events-

a4.sinks.k1.hdfs.filetype = datastream

#不按照條數生成檔案

a4.sinks.k1.hdfs.rollcount = 0

#hdfs上的檔案達到128m時生成乙個檔案

a4.sinks.k1.hdfs.rollsize = 134217728

#hdfs上的檔案達到60秒生成乙個檔案

a4.sinks.k1.hdfs.rollinterval = 60

#組裝source、channel、sink

a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

第一行就是啟動命令

啟動後可以自動收集日誌,但是只能整個檔案整個檔案的收取,並不是當我寫完一條我就收集一條

在收集完後的日誌後把原日誌檔案後新增乙個complete的字尾

大資料 資料採集平台之Scribe

apache flume 詳情請看文章 大資料 資料採集平台之apache flume fluentd 詳情請看文章 大資料 資料採集平台之fluentd logstash 詳情請看文章 大資料 資料採集平台之logstash apache chukwa 詳情請看文章 大資料 資料採集平台之apac...

剖析大資料平台的資料採集

我在一次社群活動中做過一次分享,演講題目為 大資料平台架構技術選型與場景運用 在演講中,我主要分析了大資料平台架構的生態環境,並主要以資料來源 資料採集 資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計,幾...

初始大資料 02 日誌採集大資料和爬蟲採集大資料

此圖借鑑 關鍵字 從整體上描述 agent 中 sources sinks channels 所涉及的元件 詳細指定agent中每個sources,sinks 和channels的具體實現 通過 channel 將 source 與 sink 連線起來。啟動 agent 的 shell 操作 網路爬...