Spark專案實戰 flume安裝

flume是cloudera提供的乙個高可用的，高可靠的，分布式的海量日誌採集、聚合和傳輸的系統，flume支援在日誌系統中定製各類資料傳送方，用於收集資料；同時，flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。

使用tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz命令解壓，並使用mv命令將其重新命名，然後刪除tar.gz包。

vi /etc/profile，配置完之後，我們使用source命令生效配置檔案。

# agent1表示**名稱

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1

# 配置source1

agent1.sources.source1.type=spooldir

agent1.sources.source1.spooldir=/usr/local/logs

agent1.sources.source1.channels=channel1

agent1.sources.source1.fileheader = false

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = timestamp

# 配置channel1

agent1.channels.channel1.type=file

agent1.channels.channel1.checkpointdir=/usr/local/logs_tmp_cp

agent1.channels.channel1.datadirs=/usr/local/logs_tmp

# 配置sink1

flume-ng agent -n agent1 -c conf -f /usr/local/flume/conf/flume-conf.properties -dflume.root.logger=debug,console

新建乙份檔案，移動到/usr/local/logs目錄下，flume就會自動上傳到hdfs的/logs目錄中。

1、新建flume_test.txt檔案

2、移動到/usr/local/logs目錄下，控制台輸入如下：

3、hdfs logs目錄下生成乙份檔案。

Spark專案實戰經驗

auto.offset.reset 啟動時讀取的偏移量。如果是需要歷史資料那麼設定成earliest 如果不需要消費歷史資料那麼設定成latest 1 如果自動提交偏移量 spark streaming消費到資料之後立馬提交，那麼就會有乙個問題提交偏移量成功處理失敗了，那麼spark strea...

Spark簡單案例實戰

一.給定一組鍵值對 spark 2 hadoop 6 hadoop 4 spark 6 鍵值對的key表示圖書名稱，value表示每天圖書銷量，請計算出每個鍵對應的平均值，也就是每種圖書每天的平均銷量。1.如下 val book array spark 2 hadoop 6 hadoop 4 spa...

spark 簡單實戰 Spark線性回歸簡單例子

這個課程以乙個專案來講解spark中怎麼使用線性回歸邏輯回歸以及svm等演算法模型。專案主要是航班的延遲時間，專案是按照如下的流程來講解在模型訓練地方，詳細講解了交叉驗證的功能老湯人工智慧機器學習課程體系分為三部分機器學習一之數學基礎從微積分和線性代數兩個方面講解機器學習需要的數學知識...

Spark專案實戰 flume安裝

Spark專案實戰經驗

Spark簡單案例實戰

spark 簡單實戰 Spark線性回歸簡單例子

相關推薦