資料整合 Flume和Sqoop

flume和sqoop是hadoop資料整合和收集系統，兩者的定位不一樣，下面根據個人的經驗與理解和大家做乙個介紹：

flume由cloudera開發出來，有兩大產品：flume-og和flume-ng，flume-og的架構過於複雜，在尋問當中會有資料丟失，所以放棄了。現在我們使用的是flume-ng，主要是日誌採集，這個日誌可以是tcp的系統的日誌資料，可以是檔案資料（就是通常我們在intel伺服器，通過其中的機構傳過來的介面，或者通過防火牆採集過來的日誌），在hdfs上去儲存，可以和kafka進行整合，這就是flume的功能。

flume架構是分布式，可以根據需要進行擴充套件flume的節點和數量。它的擴充套件有兩個含義：乙個是橫向的，根據原資料來源的個數、種類不同進行擴充套件；第二個就是縱向的，可以增加更多的匯聚層，去做更多的過程的資料處理，而不是資料載入進來之後再進行轉換。

flume的效能高可靠並且高可用的，可靠性主要體現在兩個方面：一方面就是有乙份資料比較重要，為了保證資料傳輸的可靠性，可以兩個agent指向這份資料，而且兩個agent可以進行示範切換，如果其中乙個失敗，另乙個還可以進行傳輸。另一方面就是在agent的內部可以做快取通透區，接收到資料可以存到磁碟，放到資料庫，縱使agent出問題，資料依然存在。

flume是做日誌採集的，但是更多的資料是從結構化資料庫過來的，這時我們就需要sqoop。sqoop是關係型資料庫和hdfs之間的乙個橋梁，可以實現資料在關係型資料庫與hdfs之間的乙個傳送。那麼我們什麼時候將資料傳遞到hdfs呢？主要是把新增交易，新增賬戶載入過來，寫的時候除了hdfs,還可以寫hive,甚至可以直接去建表。而且可以在源資料庫設立是導整個資料庫，還是導某乙個表，或者導特定的列，這都是常見的在資料倉儲中進行的etl.

sqoop允許增量匯入，增量有兩種，一種是直接追加（比如新增訂單、交易可以追加）；另一種是狀態的改變，比如乙個客戶之前是白名單客戶，還款很好，但是如果某個月逾期，加入黑名單，後期還款了又回到白名單，狀態在不停改變，那麼就不能再和交易等一樣做追加，這個時候需要做的就是拉鍊。需要乙個修改的日期，那麼這個狀態有沒有修改，如果修改了，那麼之前載入的怎麼辦？可以通過sqoop進行配置，載入的時候讓它們在hadoop裡面進行更新。我們知道hdfs檔案不能更新，這個時候進行檔案合併，通過合併的方式把文字的資料清除。

資料整合 Flume和Sqoop

Atlas元資料整合sqoop

Kafka與flume的整合

kafka整合flume詳細步驟

資料整合 Flume和Sqoop

Atlas元資料 整合sqoop

Kafka與flume的整合

kafka整合flume詳細步驟

相關推薦

Atlas元資料整合sqoop