大資料之flume flume常用的幾種配置

2021-07-02 23:24:14 字數 2762 閱讀 1853

配置一:主要是從目錄獲取資料並將資料寫入hdfs

#定義agent名, source、channel、sink的名稱

a4.sources = r1

a4.channels = c1

a4.sinks = k1

#具體定義source

a4.sources.r1.type = spooldir

a4.sources.r1.spooldir = /home/hadoop/logs

#具體定義channel

a4.channels.c1.type = memory

a4.channels.c1.capacity = 10000

a4.channels.c1.transactioncapacity = 100

#定義***,為訊息新增時間戳

a4.sources.r1.interceptors = i1

a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.timestampinterceptor$builder

#具體定義sink

a4.sinks.k1.type = hdfs

a4.sinks.k1.hdfs.path = hdfs://ns1/flume/%y%m%d

a4.sinks.k1.hdfs.fileprefix = events-

a4.sinks.k1.hdfs.filetype = datastream

#不按照條數生成檔案

a4.sinks.k1.hdfs.rollcount = 0

#hdfs上的檔案達到128m時生成乙個檔案

a4.sinks.k1.hdfs.rollsize = 134217728

#hdfs上的檔案達到60秒生成乙個檔案

a4.sinks.k1.hdfs.rollinterval = 60

#組裝source、channel、sink

a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

配置二:從目錄中讀取資料寫入到日誌檔案

#定義agent名, source、channel、sink的名稱

a3.sources = r1

a3.channels = c1

a3.sinks = k1

#具體定義source

a3.sources.r1.type = spooldir

a3.sources.r1.spooldir = /root/logs

#具體定義channel

a3.channels.c1.type = memory

a3.channels.c1.capacity = 1000

a3.channels.c1.transactioncapacity = 100

#具體定義sink

a3.sinks.k1.type = logger

#組裝source、channel、sink

a3.sources.r1.channels = c1

a3.sinks.k1.channel = c1

配置三:從命令列中得到資料並輸出到日誌檔案

#bin/flume-ng agent -n a2 -f /home/hadoop/a2.conf -c conf -dflume.root.logger=info,console

#定義agent名, source、channel、sink的名稱

a2.sources = r1

a2.channels = c1

a2.sinks = k1

#具體定義source

a2.sources.r1.type = exec

a2.sources.r1.command = tail -f /home/hadoop/a.log

#具體定義channel

a2.channels.c1.type = memory

a2.channels.c1.capacity = 1000

a2.channels.c1.transactioncapacity = 100

#具體定義sink

a2.sinks.k1.type = logger

#組裝source、channel、sink

a2.sources.r1.channels = c1

a2.sinks.k1.channel = c1

配置四:監聽某乙個埠將流經埠的資料捕獲寫入到日誌 

#定義agent名, source、channel、sink的名稱

a1.sources = r1

a1.channels = c1

a1.sinks = k1

#具體定義source

a1.sources.r1.type = netcat

a1.sources.r1.bind = localhost

a1.sources.r1.port = 8888

#具體定義channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactioncapacity = 100

#具體定義sink

a1.sinks.k1.type = logger

#組裝source、channel、sink

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

大資料面試常問問題 HANameNode

通過zkfczkfc定期向它所監控的namenode傳送健康探測命令。如果namenode宕機沒有傳送心跳,zkfc就認為它不健康,就會在zk中給其標記上乙個不健康的標記。zkfc同時也會給健康的namenode建立乙個會話,假設這個namenode同時還是active狀態,就會給其在zk中建立乙個...

學大資料要學哪些演算法 大資料分析都有哪些常見的演算法

隨著網際網路的不斷發展,大資料分析演算法讓眾多企業在使用者分析上獲得了很大的突破。今天,我們就一起來了解一下,資料分析領域常見的演算法都有哪些。1.線性回歸 線性回歸可能是統計學和機器學習中知名和易理解的演算法之一。由於 建模主要關注小化模型的誤差,或者以可解釋性為代價來做出準確的 我們會從許多不同...

大資料之簡介

要理解大資料這一概念,首先要從 大 入手,大 是指資料規模,大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大 多樣性 價值密度低 速度快。大資料技術是...