大資料技術

如果沒有乙個好的開始，不妨試試乙個壞的開始吧。因為乙個壞的開始，總比沒有開始強。而完美的開始，則永遠都不會來到。

資料採集傳輸主要技術

分為兩類，一類是離線批處理、另一類是實時資料採集和傳輸

離線批處理最有名的是sqoop、實時資料採集和傳輸最為常用的是flume和kafka

sqoop：一款開源的離線資料傳輸工具，主要用於hadoop（hive）與傳統資料庫（mysql、oracle）之間資料傳遞。

flume：實時日誌採集平台，乙個高可用、高可靠、分布式的海量日誌採集、聚合和傳輸的系統。

在這裡相信有許多想要學習大資料的同學，大家可以+下大資料學習裙： 740041381，即可免費領取套系統的大資料學習教程

kafka：通常來說flume採集資料的速度與下游處理資料通常不同步，因此實時平台架構都會用乙個訊息中介軟體進行緩衝，這方面使用最廣泛的無疑是kafka，kafka是乙個分布式訊息系統，以其可以水平擴充套件和高吞吐率而被廣泛使用，是基於訊息發布-訂閱系統。和kafka類似的訊息中介軟體產品還包括rabbitmq、activemq、zeromq等

資料處理主要技術

mapreduce：執行與大規模集群上的複雜平行計算過程高度抽象為兩個函式：map和reduce。

hive：是乙個建立在hadoop體系結構上的一層sql抽象

spark：具有可伸縮、基於記憶體計算等特點，可以讀寫hadoop上任何格式的資料。

strom：實時資料處理框架，擁有低延遲、分布式、可擴充套件、高容錯等特徵，可以保證訊息不丟（diu）失。

flink：是乙個同時面向分布式實時流處理和批量資料處理的開源計算平台，它能夠基於同乙個flink執行時提供支援流處理和批處理兩種型別應用的功能。

beam：在flink基礎上更進一步，不但希望統一批處理和流處理，而且希望統一大資料處理正規化和標準。

資料儲存主要技術

hdfs：分布式檔案系統。

hbase：構建在hdfs之上的分布式、面向列族的儲存系統，在需要實時讀寫並隨機訪問超大規模資料集等場景下，hbase目前是市場上主流的技術選擇。

資料應用技術

drill：實時大資料分布式查詢引擎，drill相容ansi sql語法作為介面，支撐對本地檔案、hdfs、hive、hbase、mongedb作為儲存資料查詢，檔案格式支援parquet、csv、tsv以及json這種無模式資料，所有這些資料都可以像使用傳統資料庫的表查詢一樣進行快速實時查詢。

r:資料分析語言

tensorflow：基於資料流圖的處理框架，tensorflow節點表示資料運算，邊表示運算節點之間的資料互動。

大資料技術

大資料技術

大資料之大資料技術架構

大資料架構常見大資料技術

大資料技術

大資料技術

大資料之大資料技術架構

大資料架構 常見大資料技術

相關推薦

大資料架構常見大資料技術