Hadoop調優的幾個引數

hdfs：hdfs-site.xml中的dfs.namenode.handler.count=20 * log2(cluster size)，比如集群規模為 8 台時，此引數設定為 60，該引數決定有多少執行緒數用來處理不同 datanode 的併發心跳以及客戶端併發的元資料操作

yarn：yarn-site.xml 中的yarn.nodemanager.resource.memory-mb，該引數決定yarn能使用的最大物理記憶體總量，預設是 8192（mb），yarn不會檢測物理機記憶體大小，需要手動指定。yarn.scheduler.maximum-allocation-mb是單個任務申請的最大物理記憶體，預設是 8192（mb）

該引數面臨問題：資料統計主要用 hivesql，沒有資料傾斜，小檔案已經做了合併處理，開啟的 jvm 重用，而且 io 沒有阻塞，記憶體用了不到 50%。但是還是跑的非常慢，而且資料量洪峰過來時，整個集群都會宕掉，很明顯是記憶體利用率不夠