大資料技術生態體系

2021-10-23 21:51:20 字數 903 閱讀 9077

圖中涉及的技術名詞解釋如下:

1)sqoop:sqoop是一款開源的工具,主要用於在hadoop、hive與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle 等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

2)flume:flume是乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;

3)kafka:kafka是一種高吞吐量的分布式發布訂閱訊息系統;

4)storm:storm用於「連續計算」,對資料流做連續查詢,在計算時就將結果以流的形式輸出給使用者。

5)spark:spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。

6)flink:flink是當前最流行的開源大資料記憶體計算框架。用於實時計算的場景較多。

7)oozie:oozie是乙個管理hdoop作業(job)的工作流程排程管理系統。

8)hbase:hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。

9)hive:hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。 其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。

10)zookeeper:它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。

大資料技術生態體系

1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...

大資料技術生態體系

大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...