大資料概述

2022-06-05 10:18:09 字數 3063 閱讀 2784

1.用圖表描述hadoop生態系統的各個元件及其關係。

2.闡述hadoop生態系統中,hdfs, mapreduce, yarn, hbase及spark的相互關係。

hadoop對應於google三駕馬車:hdfs對應於gfs,即分布式檔案系統,mapreduce即平行計算框架,hbase對應於bigtable,即分布式nosql列資料庫,外加zookeeper對應於chubby,即分布式鎖設施。

hdfs

hdfs(hadoop分布式檔案系統)源自於google的gfs**,發表於2023年10月,hdfs是gfs的實現版。hdfs是hadoop體系中資料儲存管理的基礎,它是乙個高度容錯的系統,能檢測和應對硬體故障,在低成本的通用硬體上執行。hdfs簡化了檔案的一次性模型,通過流式資料訪問,提供高吞吐量應用程式資料訪問功能,適用帶有資料集的應用程式。hdfs提供一次寫入多次讀取的機制,資料以塊的形式,同時分布儲存在不同的物理機器上。 

hdfs預設的最基本的儲存單位是64mb的資料塊,和普通檔案系統一樣,hdfs中的檔案被分成64mb一塊的資料塊儲存。它的開發是基於流資料模式訪問和處理超大檔案的需求。

mapreduce

mapduce(分布式計算框架)源自於google的mapreduce**,發表於2023年12月,hadoop mapreduce是google reduce 轉殖版。mapreduce是一種分布式計算模型,用以進行海量資料的計算。它遮蔽了分布式計算框架細節,將計算抽象成map 和reduce兩部分,其中map對資料集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。reduce則對中間結果中相同「鍵」的所有「值」進行規約,以得到最終結果。mapreduce非常適合在大量計算機組成的分布式並行環境裡進行資料處理。

hbase

hbase(分布式列存資料庫)源自google的bigtable**,發表於2023年11月,hbase是google table的實現。hbase是乙個建立在hdfs之上,面向結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。hbase採用了bigtable的資料模型,即增強的稀疏排序對映表(key/value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。hbase提供了對大規模

yarn

yarn(分布式資源管理器)是下一代mapreduce,即mrv2,是在第一代mapreduce基礎上演變而來的,主要是為了解決原始hadoop擴充套件性差,不支援多計算框架而提出的。yarn是下一代hadoop計算平台,是乙個通用的執行時框架,使用者可以編寫自己的極端框架,在該執行環境中執行。

spark

spark(記憶體dag計算模型)是乙個apche專案,被標榜為「快如閃電的集群計算」,它擁有乙個繁榮的開源社群,並且是目前最活躍的apache專案。最早spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用計算框架,spark提供了乙個更快、更通用的資料處理平台。和hadoop相比,spark平台可以讓你的程式在記憶體中執行時速度提公升100倍,或者在磁碟上執行時速度提公升10倍。

1.用圖表描述hadoop生態系統的各個元件及其關係。

2.闡述hadoop生態系統中,hdfs, mapreduce, yarn, hbase及spark的相互關係。

hadoop對應於google三駕馬車:hdfs對應於gfs,即分布式檔案系統,mapreduce即平行計算框架,hbase對應於bigtable,即分布式nosql列資料庫,外加zookeeper對應於chubby,即分布式鎖設施。

hdfs

hdfs(hadoop分布式檔案系統)源自於google的gfs**,發表於2023年10月,hdfs是gfs的實現版。hdfs是hadoop體系中資料儲存管理的基礎,它是乙個高度容錯的系統,能檢測和應對硬體故障,在低成本的通用硬體上執行。hdfs簡化了檔案的一次性模型,通過流式資料訪問,提供高吞吐量應用程式資料訪問功能,適用帶有資料集的應用程式。hdfs提供一次寫入多次讀取的機制,資料以塊的形式,同時分布儲存在不同的物理機器上。 

hdfs預設的最基本的儲存單位是64mb的資料塊,和普通檔案系統一樣,hdfs中的檔案被分成64mb一塊的資料塊儲存。它的開發是基於流資料模式訪問和處理超大檔案的需求。

mapreduce

mapduce(分布式計算框架)源自於google的mapreduce**,發表於2023年12月,hadoop mapreduce是google reduce 轉殖版。mapreduce是一種分布式計算模型,用以進行海量資料的計算。它遮蔽了分布式計算框架細節,將計算抽象成map 和reduce兩部分,其中map對資料集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。reduce則對中間結果中相同「鍵」的所有「值」進行規約,以得到最終結果。mapreduce非常適合在大量計算機組成的分布式並行環境裡進行資料處理。

hbase

hbase(分布式列存資料庫)源自google的bigtable**,發表於2023年11月,hbase是google table的實現。hbase是乙個建立在hdfs之上,面向結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。hbase採用了bigtable的資料模型,即增強的稀疏排序對映表(key/value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。hbase提供了對大規模

yarn

yarn(分布式資源管理器)是下一代mapreduce,即mrv2,是在第一代mapreduce基礎上演變而來的,主要是為了解決原始hadoop擴充套件性差,不支援多計算框架而提出的。yarn是下一代hadoop計算平台,是乙個通用的執行時框架,使用者可以編寫自己的極端框架,在該執行環境中執行。

spark

spark(記憶體dag計算模型)是乙個apche專案,被標榜為「快如閃電的集群計算」,它擁有乙個繁榮的開源社群,並且是目前最活躍的apache專案。最早spark是uc berkeley amp lab所開源的類hadoop mapreduce的通用計算框架,spark提供了乙個更快、更通用的資料處理平台。和hadoop相比,spark平台可以讓你的程式在記憶體中執行時速度提公升100倍,或者在磁碟上執行時速度提公升10倍。

大資料概述

1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...

大資料概述

大資料 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。所謂 面向集合 collection oriented 意思是資料被分組儲存在資料集...

大資料概述

1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大,大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料,或多或少存在著侷限性,資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料,加以分析,得到許多內在問題或找到最優的解決方案,提公升了資料...