MapReduce系列 原理 程式設計技巧和應用案例

2021-09-16 22:07:14 字數 723 閱讀 2015

入門必備hdfs基礎

大資料生態之起源——hadoop

分布式檔案系統hdfs架構和資料讀寫流程

hadoop偽分布式模式部署

hdfs常用命令

mapreduce原理

分布式計算框架mapreduce架構

mapreduce程式設計模型詳解— —以經典word count為例

mapreduce的maptask數量如何確定?

mapreduce靈魂——看不見的shuffle

mapreduce原理分析:自定義輸入格式inputformat

mapreduce原理分析:自定義輸出格式outputformat

mapreduce原理分析:自定義分割槽partition和資料傾斜解決之道

程式設計技巧

windows環境下mapreduce程式除錯最有用技巧

應用案例

mapreduce應用案例1:資料去重

mapreduce應用案例2:簡單資料排序

mapreduce應用案例3:簡單資料倒排

mapreduce應用案例4:二次排序(組合鍵機制實現)

mapreduce應用案例5:倒排索引

mapreduce應用案例6:二度好友發現

案例github位址

MapReduce原理及程式設計

二.mapreduce程式設計模型 mapreduce是乙個分布式計算框架 適用於大規模資料處理場景 每個job包含map和reduce兩部分 分而治之 構建抽象模型 map和reduce 隱藏系統層細節 優點 實現 資料定義格式 mapreduce執行過程 必須可序列化 serializableh...

MapReduce程式設計job概念原理

在hadoop中,每個mapreduce任務都被初始化為乙個job,每個job又可分為兩個階段 map階段和reduce階段。這兩個階段分別用兩個函式來表示。map函式接收乙個形式的輸入,然後同樣產生乙個形式的中間輸出,hadoop會負責將所有具有相同中間key值的value集合在一起傳遞給redu...

MapReduce工作原理

本文的目錄 1.mapreduce作業執行流程 2.map reduce任務中shuffle和排序的過程 mapreduce作業詳細的執行流程 流程分析 1.在客戶端啟動乙個作業。2.向jobtracker請求乙個job id。3.將執行作業所需要的資源檔案複製到hdfs上,包括mapreduce程...