NiFi資料流例項一

2021-10-05 18:33:15 字數 1780 閱讀 2411

本例項構建一條最簡單的資料流,從檔案系統的乙個本地目錄讀取檔案,生成資料流,然後分別寫入到另乙個本地目錄下和指定的hdfs目錄下。

說明每個處理器的配置視窗,有四個tab,說明如下:

tab描述

settings

處理器資訊的配置,例如處理器名稱。可以說是乙個處理器型別的例項。

scheduling

處理器的排程配置,可以進行定時排程和調整分配給此處理器的資源,例如可以使用的執行緒數。

properties

定義處理器的行為,是處理器配置的重點部分。

comments

乙個文字區,可以寫一些描述資訊或者其他資訊,也可以不寫任何內容。

詳情可參考 configuring a processor。

下面的處理器配置說明,我只寫改動的和新增的配置部分。

getfile

型別:getfile

properties:

name

value

input directory

/opt/xwd/input

putfile

型別:putfile

properties:

name

value

directory

/opt/xwd/localdir

puthdfs

型別:puthdfs

properties:

name

value

hadoop configuration resources

/etc/hadoop/conf/core-site.xml

directory

/nifi

建立測試目錄和檔案

mkdir -p /opt/xwd/input

mkdir /opt/xwd/localdir

cd /opt/xwd

touch test.txt

echo

'hello world!'

> test.txt

測試資料流

確保getfile處理器處於關閉狀態,執行命令:

cd /opt/xwd

cp test.txt input/test0.txt

檢視/opt/xwd/input目錄,可發現test0.txt檔案。

啟動所有處理器。

再次檢視/opt/xwd/input目錄,沒有任何檔案。

檢視/opt/xwd/localdir目錄,可發現test0.txt檔案。

檢視hdfs的/nifi目錄(hdfs dfs -ls /nifi),可發現test0.txt檔案。

繼續測試,執行命令:

cd /opt/xwd

cp test.txt input/test1.txt

cp test.txt input/test2.txt

檢視/opt/xwd/input目錄,會發現目錄下沒有任何檔案。

如果想要保留資料流的原始檔,這裡是保留/opt/xwd/input目錄下的檔案,可以對getfile處理進行如下設定:

name

value

keep source file

true

MapReduce資料流(一)

在 作業由那些基本元件組成,從高層來看,所有的元件在一起工作時如下圖所示 圖4.4高層mapreduce工作流水線 近距離觀察 圖4.5細節化的hadoop mapreduce資料流 圖4.5展示了流線水中的更多機制。雖然只有2個節點,但相同的流水線可以複製到跨越大量節點的系統上。下去的幾個段落會詳...

TCP互動資料流 成塊資料流

tcp資料流分類 基於tcp的各類解決方案,可以根據資料吞吐量來大致分成兩大類 1 互動資料型別,例如telnet,ssh,這種型別的協議在大多數情況下只是做小流量的資料交換,比如說按一下鍵盤,回顯一些文字等等。2 資料成塊型別,例如ftp,這種型別的協議要求tcp能盡量的運載資料,把資料的吞吐量做...

資料流重定向 一

為什麼要使用命令輸出重定向?螢幕輸出的資訊很重要,而且我們需要將它存下來的時候 後台執行中的程式,不希望它干擾螢幕正常的輸出結果時 一些系統的例行命令的執行結果,希望它可以存下來 一些執行命令的可能已知錯誤資訊時,想以 2 dev null 將它丟掉時 錯誤資訊與正確資訊需要分別輸出時 1 資料流重...