十小時入門大資料學習筆記(二)

2021-08-15 17:57:37 字數 1871 閱讀 3157

第二章初識hadoop

2.1hadoop概述

名稱由來:專案作者的孩子對黃色大象玩具的命名

開源、分布式儲存與分布式計算的平台

hadoop能做什麼:

1. 搭建大型資料倉儲,pb級資料的儲存、處理、分析、統計等業務

2. 搜尋引擎、日誌分析、資料探勘、商業智慧型

2.2hadoop核心元件

hdfs(分布式檔案系統)

1. 源於google在

2023年10

月發表的

gfs**

2. 對gfs的轉殖

3. 特點:擴充套件性、容錯性、海量資料儲存

4. 將檔案切分成指定大小的資料塊並且多副本存於多個機器上

5. 資料切分、多副本、容錯對使用者是透明的

yarn(資源管理系統)

1. 整個集群資源的管理與排程

2. 特點:擴充套件性、容錯性、多框架資源統一排程

mapreduce(分布式計算框架)

1. 2023年

12月的

googlemapreduce

**2. google mapreduce的轉殖版

3. 特點:擴充套件性、容錯性、海量資料的離線處理

2.3hadoop優勢

hadoop優勢之高擴充套件性

1. 儲存/計算資源不夠可以橫向線性的擴充套件機器

2. 乙個集群可以包含數以千計、萬計的節點

hadoop其他優勢

1. 儲存在低廉機器上、成本低廉

2. 成熟的生態圈

2.4hadoop發展史

《hadoop十年解讀與發展**》

狹義的hadoop:適合於大資料的分布式儲存(

hdfs

)、分布式計算(

mapreduce

)和資源排程(

yarn

)的平台。

廣義的hadoop:

hadoop

生態系統,龐大的概念,

hadoop

是其中最重要最基礎的一部分;生態系統中的每乙個子系統針對特定的問題域(甚至可能更窄);不搞統一型的全能系統,而是小而精的多個小系統。

2.5hadoop的生態系統

生態系統特點:

1. 開源、社群活躍

2. 囊括了大資料處理的方方面面

2.6hadoop發行版的選擇

1. apache hadoop

2. cdh(

cloudera distributed hadoop

)3.hdp(

hortonworks data platform

2.7企業中的應用案例

1. 消費大資料

2. 商品零售大資料

《Qt Quick 4小時入門》學習筆記4

qt quick 4小時入門第七章 處理滑鼠與鍵盤事件 1 處理滑鼠事件 滑鼠訊號傳遞乙個mouseevent型別的mouse引數 import qtquick2.7 import qtquick.controls2.0 import qtquick.layouts1.0 import qtquic...

大資料入門學習?

第一部分 了解大資料平台架構 大資料有非常大的價值,不管是從幫助企業創造營收還是從提高效率 節省企業成本角度。大資料要是做好了,將會是乙個企業增長的發動機,推動業務突飛猛進的發展。要實現大資料的價值,真正讓大資料為企業創造貢獻,首先必須要積累有大資料,把日常的業務和使用者行為資料收集起來。有些資料是...

大資料入門學習(一) 初識大資料

大資料的定義 大資料 big data 又稱為巨量資料,指需要新處理模式才能具有更強的決策力 洞察力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統...