實時監控目錄下多個新檔案

2021-10-06 07:58:35 字數 1555 閱讀 9363

a3.sources = r3

a3.sinks = k3

a3.channels = c3

# describe/configure the source

a3.sources.r3.type = spooldir

a3.sources.r3.spooldir =

/opt/module/flume-

1.7.0

/upload

a3.sources.r3.filesuffix =

.completed

a3.sources.r3.fileheader =

true

#忽略所有以.tmp結尾的檔案,不上傳

a3.sources.r3.ignorepattern =([

^]*\.tmp)

# describe the sink

a3.sinks.k3.type = hdfs

a3.sinks.k3.hdfs.path = hdfs:

//hadoop102:

9000

/flume/upload/

%y%m%d/

%h#上傳檔案的字首

a3.sinks.k3.hdfs.fileprefix = upload-

#是否按照時間滾動資料夾

a3.sinks.k3.hdfs.round =

true

#多少時間單位建立乙個新的資料夾

a3.sinks.k3.hdfs.roundvalue =

1#重新定義時間單位

a3.sinks.k3.hdfs.roundunit = hour

#是否使用本地時間戳

a3.sinks.k3.hdfs.uselocaltimestamp =

true

#積攢多少個event才flush到hdfs一次

a3.sinks.k3.hdfs.batchsize =

100#設定檔案型別,可支援壓縮

a3.sinks.k3.hdfs.filetype = datastream

#多久生成乙個新的檔案

a3.sinks.k3.hdfs.rollinterval =

60#設定每個檔案的滾動大小大概是128m

a3.sinks.k3.hdfs.rollsize =

134217700

#檔案的滾動與event數量無關

a3.sinks.k3.hdfs.rollcount =

0# use a channel which buffers events in memory

a3.channels.c3.type = memory

a3.channels.c3.capacity =

1000

a3.channels.c3.transactioncapacity =

100# bind the source and sink to the channel

a3.sources.r3.channels = c3

a3.sinks.k3.channel = c3

Flume1 9 0實時監控目錄下多個新檔案

1.案例需求 使用flume監聽整個目錄的檔案,並上傳至hdfs 2.實現步驟 1 建立配置檔案flume dir hdfs.conf 建立乙個檔案 nogc hadoop102 job vim flume dir hdfs.conf新增如下內容 a3.sources r3 a3.sinks k3 ...

python之查詢指定目錄下的最新檔案

使用os模組查詢指定目錄下的最新檔案1 importos2 3 輸入目錄路徑,輸出最新檔案完整路徑 4def find new file dir 5 查詢目錄下最新的檔案 6 file lists os.listdir dir 7 file lists.sort key lambda fn os.p...

監控目錄下的檔案操作與實時同步

若有個需求 要求記錄下某個目錄下的所有操作,包括建立檔案 修改檔案 重新命名 刪除檔案的操作,將以上所有的操作全部記錄到日誌中,或者做其他操作。net提供了乙個方法叫做 system.io.filesystemwatcher 方便powershell來呼叫。具體使用方法,我慢慢解釋。folder c...