Spark專案實戰 flume安裝

2021-08-26 17:50:53 字數 2121 閱讀 7500

flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

使用tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz命令解壓,並使用mv命令將其重新命名,然後刪除tar.gz包。

vi /etc/profile,配置完之後,我們使用source命令生效配置檔案。

# agent1表示**名稱

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1

# 配置source1

agent1.sources.source1.type=spooldir

agent1.sources.source1.spooldir=/usr/local/logs

agent1.sources.source1.channels=channel1

agent1.sources.source1.fileheader = false

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = timestamp

# 配置channel1

agent1.channels.channel1.type=file

agent1.channels.channel1.checkpointdir=/usr/local/logs_tmp_cp

agent1.channels.channel1.datadirs=/usr/local/logs_tmp

# 配置sink1

flume-ng agent -n agent1 -c conf -f /usr/local/flume/conf/flume-conf.properties -dflume.root.logger=debug,console
新建乙份檔案,移動到/usr/local/logs目錄下,flume就會自動上傳到hdfs的/logs目錄中。

1、新建flume_test.txt檔案

2、移動到/usr/local/logs目錄下,控制台輸入如下:

3、hdfs logs目錄下生成乙份檔案。 

Spark專案實戰經驗

auto.offset.reset 啟動時讀取的偏移量。如果是需要歷史資料那麼設定成earliest 如果不需要消費歷史資料那麼設定成latest 1 如果自動提交偏移量 spark streaming消費到資料之後立馬提交,那麼就會有乙個問題 提交偏移量成功 處理失敗了,那麼spark strea...

Spark簡單案例實戰

一.給定一組鍵值對 spark 2 hadoop 6 hadoop 4 spark 6 鍵值對的key表示圖書名稱,value表示每天圖書銷量,請計算出每個鍵對應的平均值,也就是每種圖書每天的平均銷量。1.如下 val book array spark 2 hadoop 6 hadoop 4 spa...

spark 簡單實戰 Spark線性回歸簡單例子

這個課程以乙個專案來講解spark中怎麼使用線性回歸 邏輯回歸以及svm等演算法模型。專案主要是 航班的延遲時間,專案是按照如下的流程來講解 在模型訓練地方,詳細講解了交叉驗證的功能 老湯人工智慧 機器學習課程體系分為三部分 機器學習一之數學基礎 從微積分和線性代數兩個方面講解機器學習需要的數學知識...