二 大資料的生態體系

2021-10-21 01:33:59 字數 346 閱讀 3781

自下而上:

資料傳輸層:根據資料的結構不同主要分為sqoop\flume\kafka等

資料儲存層:hadoop中常用的檔案儲存主件就是hdfs,hbase是非關係型資料以鍵值對儲存,kafka可以有1g的快取

資源管理層:yarn資源的管理,負責分配記憶體、網路分配等

資料計算層:分為離線排程和實時排程

離線計算主要負責統計任務,比如一天、乙個月的交易量等,常用mapreduce 和 sparkcore記憶體計算

實時計算主要負責高併發的實時計算,比如雙十一活動等,主要是spark streaming實時計算和flink.

任務排程層:負責任務的先後順序和依賴排程等任務安排

大資料(二)大資料相關的技術

大資料常和雲計算聯絡到一起,因為實時的大型資料集分析需要分布式處理框架來向數 十 數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大資料則是電。雲計算思想的起源是麥卡錫在上世紀 60 年代提出的 把計算能力作為一種像水和電一樣的公用事業提供給使用者。如今,在 goog...

大資料技術生態體系

1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...