flume資料採集扇入

2021-09-25 00:08:49 字數 2174 閱讀 1889

.conf檔案的定義

#1 agent

a3.sources = r3 r4

a3.sinks = k3

a3.channels = c3

#2 source

#監控目錄的型別

a3.sources.r3.type = spooldir

#監控目錄的路徑

a3.sources.r3.spooldir = /opt/model/hadoop-2.8.4/logs

#哪個檔案上傳hdfs,然後給這個檔案新增乙個字尾

a3.sources.r3.filesuffix = .completed

a3.sources.r3.fileheader = true

#忽略所有以.tmp結尾的檔案,不上傳(可選)

a3.sources.r3.ignorepattern = ([^ ]*\.tmp)

#監控目錄的型別

a3.sources.r4.type = netcat

a3.sources.r4.bind = bigdata111

a3.sources.r4.port = 44445

# 3 sink

a3.sinks.k3.type = hdfs

a3.sinks.k3.hdfs.path = hdfs://bigdata112:9000/flumeinput/%y%m%d%h

#上傳檔案的字首

a3.sinks.k3.hdfs.fileprefix = tinput-

#是否按照時間滾動資料夾

a3.sinks.k3.hdfs.round = true

#多少時間單位建立乙個新的資料夾

a3.sinks.k3.hdfs.roundvalue = 1

#重新定義時間單位

a3.sinks.k3.hdfs.roundunit = hour

#是否使用本地時間戳

a3.sinks.k3.hdfs.uselocaltimestamp = true

#積攢多少個event才flush到hdfs一次

a3.sinks.k3.hdfs.batchsize = 100

#設定檔案型別,可支援壓縮

a3.sinks.k3.hdfs.filetype = datastream

#多久生成乙個新的檔案

a3.sinks.k3.hdfs.rollinterval = 600

#設定每個檔案的滾動大小大概是128m

a3.sinks.k3.hdfs.rollsize = 134217700

#檔案的滾動與event數量無關

a3.sinks.k3.hdfs.rollcount = 0

#最小副本數

a3.sinks.k3.hdfs.minblockreplicas = 1

# use a channel which buffers events in memory

a3.channels.c3.type = memory

a3.channels.c3.capacity = 1000

a3.channels.c3.transactioncapacity = 100

# bind the source and sink to the channel

a3.sources.r3.channels = c3

a3.sources.r4.channels = c3

a3.sinks.k3.channel = c3

監控結果

監控bigdata111 44445埠輸入資料

監控hadoop日誌資訊丙上傳到hdfs

2個資料來源採集到的資料合併上傳到bigdata112 hdfs目錄下

檢視hdfs裡面sink進來的具體資料

flume案例 網路資料採集 Flume的配置

開發配置檔案 根據資料採集的需求配置採集方案,描述在配置檔案中 檔名可任意自定義 配置我們的網路收集的配置檔案 在flume的conf目錄下新建乙個配置檔案 採集方案 vim export servers apache flume 1.8.0 bin conf netcat logger.conf ...

flume採集案例

1 採集目錄到hdfs 採集需求 某伺服器的某特定目錄下,會不斷產生新的檔案,每當有新檔案出現,就需要把檔案採集到hdfs中去 根據需求,首先定義以下3大要素 採集源,即source 監控檔案目錄 spooldir 下沉目標,即sink hdfs檔案系統 hdfs sink source和sink之...

Flume(03) Flume採集案例

需求分析 採集需求 某伺服器的某特定目錄 export servers dirfile下,會不斷產生新的檔案,每當有新檔案出現,就需要把檔案採集到hdfs中去。需求分析 通過flume採集資料,最重要的就是配置三大元件。這裡可以通過source來監控檔案目錄。通過channel,來將source採集...