Hadoop 各引數優化

2021-08-26 18:22:28 字數 758 閱讀 3788

mapred.tasktracker.map.tasks.maximum 4

// 單機map端最大可執行的map任務數

mapred.tasktracker.reduce.tasks.maximum 6

// 單機reduce端最大可執行的reduce任務數目

mapred.local.dir

$/mapred/local

the local directory where mapreduce stores intermediate

data files.  may be a comma-separated list of

directories on different devices in order to spread disk i/o.

directories that do not exist are ignored.

// mapreduce 執行過程的本地臨時儲存目錄,多個目錄逗號分隔。(多個目錄可以提高磁碟io,多個目錄最好分屬於不同的磁碟)

hadoop.tmp.dir

/tmp/hadoop-$ // 預設在/tmp 目錄下,這個最好進行更改,/tmp目錄在重啟系統的時候會被清除

a base for other temporary directories.

// hadoop 系統的臨時儲存目錄(本地*inux檔案系統)

待解答問題:

1. map的數目和什麼條件相關 ?

2. reduce的資料和什麼條件相關 ? 

hadoop元資料合併過程 hadoop各種流程

元資料合併流程 hdfs的讀寫過程 shuffle過程 job提交流程 元資料合併流程 checkpoint edits 日誌的元資料 fsimage 映象的元資料 1 snn會向namenode傳送元資料是否合併的檢查 1min檢查一次 2 namenode需要元資料合併 會向snn進行相應 3 ...

Hadoop 六 Hadoop企業優化

mapreduce 程式效率的瓶頸在於兩點 cpu 記憶體 磁碟健康 網路 1 資料傾斜 2 map和reduce數設定不合理 3 map執行時間太長,導致reduce等待過久 4 小檔案過多 5 大量的不可分塊的超大檔案 6 spill次數過多 7 merge次數過多等。mapreduce優化方法...

CALL BDC 時各引數

以前作過這樣的程式,記錄一筆.data messtab like bdcmsgcoll occurs 0 with header line.call transaction va21 using bdcdata mode mode a display screen mode e display sc...