大資料技術生態體系

2021-09-02 13:22:11 字數 1174 閱讀 1619

1)sqoop:sqoop是一款開源的工具,主要用於在hadoop、hive與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle 等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

2)flume:flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

3)kafka:kafka是一種高吞吐量的分布式發布訂閱訊息系統,有如下特性:

4)storm:storm用於「連續計算」,對資料流做連續查詢,在計算時就將結果以流的形式輸出給使用者。

5)spark:spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。

6)oozie:oozie是乙個管理hdoop作業(job)的工作流程排程管理系統。

7)hbase:hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。

8)hive:hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。 其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。

9)r語言:r是用於統計分析、繪圖的語言和操作環境。r是屬於gnu系統的乙個自由、免費、源**開放的軟體,它是乙個用於統計計算和統計製圖的優秀工具。

10)mahout:apache mahout是個可擴充套件的機器學習和資料探勘庫。

11)zookeeper:zookeeper是google的chubby乙個開源的實現。它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。zookeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...

大資料技術生態體系

大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...

大資料技術生態體系

圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 f...