大資料概述

1.列舉hadoop生態的各個元件及其功能、以及各個元件之間的相互關係，以圖呈現並加以文字描述。

1.hadoop分布式檔案系統hdfs是針對谷歌分布式檔案系統的開源實現，它是hadoop兩大核心組成部分之一，提供了在廉價伺服器集群中進行大規模分布式檔案儲存的能力。

2.mapreduce 是一種分布式並行程式設計模型，用於大規模資料集（大於1tb）的並行運算，它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式：map和reduce

3.hdfs具有很好的容錯能力，並且相容廉價的硬體裝置，因此，可以以較低的成本利用現有機器實現大流量和大資料量的讀寫。

4.yarn 是負責集群資源排程管理的元件。yarn 的目標就是實現「乙個集群多個框架」，即在乙個集群上部署乙個統一的資源排程管理框架yarn

5.hive是乙個基於hadoop的資料倉儲工具，可以用於對儲存在hadoop檔案中的資料集進行資料整理、特殊查詢和分析處理。

6.flume 是 cloudera 公司開發的乙個高可用的、高可靠的、分布式的海量日誌採集、聚合和傳輸系統。

7.sqoop是sql-to-hadoop的縮寫，主要用來在hadoop和關聯式資料庫之間交換資料，可以改進資料的互操作性。

2.對比hadoop與spark的優缺點。

hadoop的優點

1、hadoop具有按位儲存和處理資料能力的高可靠性。

2、hadoop通過可用的計算機集群分配資料，完成儲存和計算任務，這些集群可以方便地擴充套件到數以千計的節點中，具有高擴充套件性。

hadoop的缺點

1、hadoop不適用於低延遲資料訪問。

2、hadoop不能高效儲存大量小檔案。

3、hadoop不支援多使用者寫入並修改檔案。

spark的優點

1、速度快

2、使用方便，支援多語言

3、豐富的操作運算元

4、支援的場景多

5、生態完善、社群活躍

1、流式計算不如flink

2、資源消耗較高

3.如何實現hadoop與spark的統一部署？

spark可執行於yarn之上，與hadoop進行統一部署，即「spark on yarn」，資源管理和排程依賴yarn，分布式儲存則依賴hdfs。

大資料概述

1.試述大資料對思維方式的重要影響。全樣而非抽象過去，由於資料儲存和處理能力的限制，在科學分析中，通常採用抽樣的方法，即從全集資料中抽取一部分樣本資料，再通過樣本資料的分析來推斷出全集資料的特徵。如今，有了大資料的支援，科學分析完全可以直接針對全集資料而不是抽樣資料，並且可以在短時間內迅速得到分析...

大資料概述

大資料大資料 big data it行業術語，是指無法在一定時間範圍內用常規軟體工具進行捕捉管理和處理的資料集合，是需要新處理模式才能具有更強的決策力洞察發現力和流程優化能力的海量高增長率和多樣化的資訊資產。所謂面向集合 collection oriented 意思是資料被分組儲存在資料集...

大資料概述

1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大，大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料，或多或少存在著侷限性，資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料，加以分析，得到許多內在問題或找到最優的解決方案，提公升了資料...

大資料概述

大資料概述

大資料概述

大資料概述

相關推薦