學習 008 Hadoop從初級到高手

2021-09-26 09:04:32 字數 1135 閱讀 6584

課程說明項內容

課程型別

視屏課程

內容型別

hadoop

課程名稱

hadoop從初級到高手

位址時長1500

費用免費

學習心得

更清楚了hadoop儲存、計算、排程之間的關係,hdfs不只是儲存,更重要的工作是檔案管理,自動實現分布式的檔案讀、寫、存、備份、容錯等功能

理解了mapreduce計算的完整過程,這有利於以後資料處理任務開發時的排錯和優化

了解了資料處理中常見的資料傾斜問題發生的原理和處理方式

終於知道了為什麼都說hadoop擴充套件性強,成本低,易管理,高可用,強容錯。通過把檔案、儲存甚至是計算資源切分成更小單位後重組的方式,實現了部分變更不影響整體,避免了部分問題引發全面崩潰,實現了部分新增擴充套件整體資源上限的能力。這就像是把原先的一根鏈條變成了一張大網,鏈條任意緩解斷裂,整個鏈條就斷裂了。但一張網的某些節點斷裂,並不會太影響這張網的作用。能這樣做,也是因為資源充足,可以冗餘備份。

課程目錄和概要

一.hadoop的部署和配置

1.hadoop組成

2.hadoop的部署模式

3.hadoop的管理

4.hadoop資料寫入流程剖析

5.各種壓縮演算法效能評測

二.mapreduce的程式設計

1.map負責變換(對資料切分轉換為kv格式)

2.reduce負責聚合(對kv資料按k進行聚合)

3.shuffle負責混洗(核心機制:資料分割槽,排序,區域性聚合,快取,拉取,再合併 排序)

三.map和reduce詳解

1.排序

2.連線查詢(內連線,外連線,全連線)

3.資料傾斜(大量的資料聚集在少數幾個節點運算)

4.資料傾斜解決方法

四.mapreduce全流程詳解

1.inputformat(輸入)

2.recordreader(閱讀器)

3.map

4.reduce

5.outputformat

6.writer

五.hadoop的高可用(ha)

hadoop的ha(高可用)實現方式就是 冗餘+故障自動轉移

異地多活,乙個出故障了,立即切換另乙個,兩個同時出故障機率太小

大資料從0到一 Hadoop

系統瓶頸 google大資料技術 儲存容量 bigtable 讀寫速度 gfs 計算效率 mapreduce 在官方 進行學習 在官方 學習英文文件進行學習 專案實戰對知識點進行鞏固和融會貫通 社群活動 meetup infoq hadoop 分布式儲存 計算 可拓展 穩定的開源框架 可以做 搭建大...

從0開始的Python學習008變數

區域性變數 在我們定義函式的過程中,函式內外具有相同名稱的變數是沒有任何關係的。變數的名稱對於函式來說是區域性的,而它所在的 塊就是它的作用域。使用區域性變數 區域性變數 deffunc x print x is x x 2 print changed local x to x x 5func x ...

從初級程式設計師到CEO的蛻變

從初級程式設計師到ceo的蛻變 現在對程式設計師的普遍 暗黑 看法是,這是一群所有時間都窩乙個黑暗的房間裡,與數百萬行 為伍,也許甚至不具備人際交往能力的 程式猿 好吧,雖然我也有程式設計背景,所以可能會有點偏頗,但是這顯然是無稽之談。php程式設計師不僅能力卓絕 是創造現代生活和商業的基石,而且還...