學習 008 Hadoop從初級到高手

課程說明項內容

課程型別

視屏課程

內容型別

hadoop

課程名稱

hadoop從初級到高手

位址時長1500

費用免費

學習心得

更清楚了hadoop儲存、計算、排程之間的關係，hdfs不只是儲存，更重要的工作是檔案管理，自動實現分布式的檔案讀、寫、存、備份、容錯等功能

理解了mapreduce計算的完整過程，這有利於以後資料處理任務開發時的排錯和優化

了解了資料處理中常見的資料傾斜問題發生的原理和處理方式

終於知道了為什麼都說hadoop擴充套件性強，成本低，易管理，高可用，強容錯。通過把檔案、儲存甚至是計算資源切分成更小單位後重組的方式，實現了部分變更不影響整體，避免了部分問題引發全面崩潰，實現了部分新增擴充套件整體資源上限的能力。這就像是把原先的一根鏈條變成了一張大網，鏈條任意緩解斷裂，整個鏈條就斷裂了。但一張網的某些節點斷裂，並不會太影響這張網的作用。能這樣做，也是因為資源充足，可以冗餘備份。

課程目錄和概要

一.hadoop的部署和配置

1.hadoop組成

2.hadoop的部署模式

3.hadoop的管理

4.hadoop資料寫入流程剖析

5.各種壓縮演算法效能評測

二.mapreduce的程式設計

1.map負責變換（對資料切分轉換為kv格式）

2.reduce負責聚合（對kv資料按k進行聚合）

3.shuffle負責混洗（核心機制：資料分割槽，排序，區域性聚合，快取，拉取，再合併排序）

三.map和reduce詳解

1.排序

2.連線查詢（內連線，外連線，全連線）

3.資料傾斜（大量的資料聚集在少數幾個節點運算）

4.資料傾斜解決方法

四.mapreduce全流程詳解

1.inputformat（輸入）

2.recordreader（閱讀器）

3.map

4.reduce

5.outputformat

6.writer

五.hadoop的高可用（ha）

hadoop的ha（高可用）實現方式就是冗餘+故障自動轉移

異地多活，乙個出故障了，立即切換另乙個，兩個同時出故障機率太小

學習 008 Hadoop從初級到高手

大資料從0到一 Hadoop

從0開始的Python學習008變數

從初級程式設計師到CEO的蛻變

學習 008 Hadoop從初級到高手

大資料從0到一 Hadoop

從0開始的Python學習008變數

從初級程式設計師到CEO的蛻變

相關推薦