大資料Flume特性

2022-09-29 02:57:07 字數 1480 閱讀 9721

重要元件:

1 ) channelselector

channelselector 的作用就是選出 event 將要被發往哪個 channel。其共有兩種型別,分別是 replicating(複製)和 multiplexing(多路復用)。replicatingselector 會將同乙個 event 發往所有的channel,multiplexing 會根據相應的原則,將不同的 event 發往不同的 channel。

2 ) sinkprocessor

sinkprocessor 共 有 三 種 類 型 , 分 別 是 defaultsinkprocessor 、loadbalancingsinkprocessor 和 failoversinkprocessordefaultsinkprocessor 對應的是單個的 sink,loadbalancingsinkprocessor 和

failoversinkprocessor 對應的是 sink group,loadbalancingsinkprocessor 可以實現負載均衡的功能,failoversinkprocessor 可以錯誤恢復的功能。

這種模式是將多個 flume 順序連線起來了,從最初的 source 開始到最終 sink 傳送的目的儲存系統。此模式不建議橋接過多的 flume 數量, flume 數量過多不僅會影響傳輸速率,而且一旦傳輸過程中某個節點 flume 宕機,會影響整個傳輸系統。

flume 支援將事件流向乙個或者多個目的地。這種模式可以將相同資料複製到多個channel 中,或者不同資料分發到不同的 channel 中,sink 可以選擇傳送到不同的目的地。

flume支援使用將多個sink邏輯上分到乙個sink組,sink組配合不同的sinkprocessor可以實現負載均衡和錯誤恢復的功能。

這種模式是我們最常見的,也非常實用,日常 web 應用通常分布在上百個伺服器,大者甚至上千個、上萬個伺服器。產生的日誌,處理起來也非常麻煩。用 flume 的這種組合方式能很好的解決這一問題,每台伺服器部署乙個 flume 採集日誌,傳送到乙個集中收集日誌的flume,再由此 flume 上傳到 hdfs、hive、hbase 等,進行日誌分析。

大資料 Flume架構筆錄

從大資料採集到資料儲存 flume 採集框架 分布式 資料來源 模擬 資料採集 flume 資料儲存 hdfs 分布式檔案系統 flume架構 資料採集 從一端到另一端 檔案source 輸入 channel 事件的快取 相當於水管 slink 輸出 hdfsf分布式檔案系統 flume 1.定義a...

大資料 八 Flume部署

如果說大資料中分布式收集日誌用的是什麼,你完全可以回答flume!面試小心問到哦 首先說乙個複製本伺服器檔案到目標伺服器上,需要目標伺服器的ip和密碼 命令 scp filename ip 目標路徑 一 概述 flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸...

大資料系列之Flume 一

flume是乙個分布式的高可靠,可擴充套件的資料採集框架,在大資料工程中我們常常需要日誌進行分析獲取商業價值而flume就是採集多個不同的資料來源,交給資料處理程式同一執行。flume event 乙個資料集,是flume傳輸資料的基本單位 source 接收來自外部的flume event,有很多...