MR要點彙總 Yarn

2021-09-24 10:54:37 字數 777 閱讀 4268

隨心記:

​ 1.預設切片=塊 所以預設map就處理乙個塊

​ 2.切片大小可以人為調節,故乙個切片可以對應乙個或者多個map,也可以乙個切片對應多個塊(當要求切片資料》128m時)

​ 3.切片是邏輯的,屬於計算層

​ 4.map數量由切片決定 reduce數量由人決定,所以map和reduce可以是任何對應關係

​ 5.reduce最優化案例分析

​ 1.5組資料

​ 2.3人,每人3個程式

​ 6.以一條記錄為單位調取乙個map方法,預設一行是乙個記錄

​ 7.map輸入以記錄為單位,但記錄的樣式由切片決定,切片可以將輸入資料樣式化

​ 8.reduce輸入以組為單位,一組的可以有多條記錄

​ 9.」相同「的key為一組,呼叫一次reduce方法,方法內迭代這一組資料進行計算

​ 10.map的的k主要做特徵抽取

​ 11.mapreduce運算速度快的核心是減少shuffer的資料量

​ 12.reduce的排序強依賴map輸出的排序結果

​ 沒有重排序的能力,僅可以歸併資料

​ 13.就近原則優點:資料沒有移動,不會產生io

​ 14.為減少資料移動做法:

​ 1、磁碟設大 2、副本設多

客戶端:分析檔案,做切片清單,產生配置資訊,jar包(map類、reduce類)

rm統計資源dn情況

mr 執行在yarn集群流程分析

rm返回給其資源提交的路徑以及job的id號,staging jobid構成乙個job的唯一資源提交路徑,將job.split job.xml jar包提交到此路徑上面去,job資源提交完畢,rm將其分裝為乙個task,rm可能會處理多個task,所以需要資源排程,其主要有三種方式 fair 公平每...

Mr 結合yarn的執行流程 執行邏輯

1 為什麼要使用yarn?為了提公升集群的利用率 資源統一管理,使用yarn為上層應用提供統一的資源管理和排程的平台。2 yarn的優勢?資源的統一管理和排程 集群中所有節點的資源 記憶體 cpu 磁碟 網路等 抽象為container。計算框架需要資源進行運算任務時需要向yarn申請contain...

CString要點彙總

1 對乙個 cstring 變數,你可以使用的唯一合法轉換符是 lpctstr,直接 轉換成非常量指標 lptstr const char 是錯誤的。2.getbuffer getbuffer 用來得到乙個指向緩衝區的非常量指標.getbuffer 主要作用是將字串的緩衝區長度鎖定,releaseb...