Flume基礎(六) 企業開發案例(三)

1)案例需求:使用 flume 監聽整個目錄的檔案



1.建立配置檔案 flume-dir-hdfs.conf


[atguigu@hadoop102 job]$ touch flume-dir-hdfs.conf

[atguigu@hadoop102 job]$ vim flume-dir-hdfs.conf

a3.sources =r3

a3.sinks =k3

a3.channels =c3

# describe/configure the source

a3.sources.r3.type =spooldir

a3.sources.r3.spooldir = /opt/module/flume/upload

a3.sources.r3.filesuffix =.completed

a3.sources.r3.fileheader = true

#忽略所有以.tmp 結尾的檔案,不上傳

a3.sources.r3.ignorepattern = ([^ ]*\.tmp)

# describe the sink

a3.sinks.k3.type =hdfs

a3.sinks.k3.hdfs.path =hdfs:



a3.sinks.k3.hdfs.fileprefix = upload-#是否按照時間滾動資料夾

a3.sinks.k3.hdfs.round = true


a3.sinks.k3.hdfs.roundvalue = 1


a3.sinks.k3.hdfs.roundunit =hour


a3.sinks.k3.hdfs.uselocaltimestamp = true

#積攢多少個 event 才 flush 到 hdfs 一次

a3.sinks.k3.hdfs.batchsize = 100


a3.sinks.k3.hdfs.filetype =datastream


a3.sinks.k3.hdfs.rollinterval = 600

#設定每個檔案的滾動大小大概是 128m

a3.sinks.k3.hdfs.rollsize = 134217700

#檔案的滾動與 event 數量無關

a3.sinks.k3.hdfs.rollcount = 0


2. 啟動監控資料夾命令

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name 

a3 --conf-file job/flume-dir-hdfs.conf

說明: 在使用 spooling directory source 時

1) 不要在監控目錄中建立並持續修改檔案

2) 上傳完成的檔案會以.completed 結尾

3) 被監控資料夾每 500 毫秒掃瞄一次檔案變動

3. 向 upload 資料夾中新增檔案

在/opt/module/flume 目錄下建立 upload 資料夾

[atguigu@hadoop102 flume]$ mkdir upload
向 upload 資料夾中新增檔案

[atguigu@hadoop102 upload]$ touch atguigu.txt

[atguigu@hadoop102 upload]$ touch atguigu.tmp

[atguigu@hadoop102 upload]$ touch atguigu.log

4. 檢視 hdfs 上的資料

5. 等待 1s,再次查詢 upload 資料夾

[atguigu@hadoop102 upload]$ ll


0 -rw-rw-r--. 1 atguigu atguigu 0

5 月 20



-rw-rw-r--. 1 atguigu atguigu 0

5 月 20



-rw-rw-r--. 1 atguigu atguigu 0

5 月 20

22:31 atguigu.txt.completed

