Hadoop引數調優

（1）要注意namenode和datanode的通訊，有乙個引數可以提公升他們通訊的順暢度（即20logn，n為集群大小）。

（2）注意把hdfs的namenode 檔案edits（日誌檔案）和fsimage（映象檔案）配置在不同目錄下。可以提公升namenode效能

（3）基準測試：測試hdfs的寫/讀效能

問題描述：沒有資料傾斜，小檔案已經做了合併處理，開啟的jvm重用，而且io沒有阻塞，記憶體用了不到50%。但是還是跑的非常慢，而且資料量洪峰過來時，整個集群都會宕掉。基於這種情況有沒有優化方案。

解決辦法：

（1）如果mr造成系統宕機。此時要控制yarn同時執行的任務數，和每個任務申請的最大記憶體。調整引數：yarn.scheduler.maximum-allocation-mb（單個任務可申請的最多物理記憶體量，預設是8g）

（2）如果寫入檔案過量造成namenode宕機。那麼調高kafka的儲存大小，控制從kafka到hdfs的寫入速度。高峰期的時候用kafka進行快取，高峰期過去資料同步會自動跟上。

hadoop 引數調優重點引數

yarn的引數調優,必調引數 28 yarn.nodemanager.resource.memory mb 預設為8192。每個節點可分配多少物理記憶體給yarn使用，考慮到節點上還可能有其他程序需要申請記憶體，該值設定為物理記憶體總數 1.3比較合適，例如128g記憶體的節點可以分配100g 3...

hadoop的引數調優

1，在hdfs site.xml 中配置多目錄，提前配置好，以免以後要配置時，需要重啟集群。2，namenode 有乙個工作執行緒池，用來處理不同的datanode的併發心跳和客戶端訪問併發請求。配置dfs.namenode.handler.count 20 log2 cluster size 比如...

Hadoop調優的幾個引數

hdfs hdfs site.xml中的dfs.namenode.handler.count 20 log2 cluster size 比如集群規模為 8 台時，此引數設定為 60，該引數決定有多少執行緒數用來處理不同 datanode 的併發心跳以及客戶端併發的元資料操作 yarn yarn si...

Hadoop引數調優

hadoop 引數調優重點引數

hadoop的引數調優

Hadoop調優的幾個引數

相關推薦