記一次nodemanager無法啟動的情況

2022-08-19 09:12:14 字數 1174 閱讀 9841

早上看cdh發現有乙個nodemanager掛掉

然後檢視對應的日誌。

發現在日誌裡面並沒有錯誤。,然然後發現伺服器的磁碟滿了,趕緊清理磁碟空間

清理磁碟的時候發現主要是/tmp目錄下面生成了很多

類似這種的日誌。

清理完空間之後 重啟nodemanager。發現還是啟不來

到這裡之後發現就停住了。。。。然後cdh頁面就掛了nodemanager還是起不來。

所以 find 一下

記憶體不足,

然後晚上九點過顯示磁碟空間不足,解決辦法 

rm  -fr /data/yarn/nm/usercache/*

刪除cache之後 重啟nodemanager正常

並且刪除

/var/lib/hadoop-yarn/yarn-nm-recovery/*

問題分析:由於這台機器上跑大任務,導致記憶體不足,記憶體不足 yarnnodemanager會一直報警寫到  /tmp目錄下,產生很多大檔案,進而導致磁碟不足,

刪除/tmp 下面的日誌之後 啟動node 但是一直起不來,yarn會去cache裡面 recovering任務,但是這些任務已經過時導致一直起不來,解決辦法就是刪除這些cache

詳細資訊可以參考

記一次除錯

這是我最近幾個月來遇到的最棘手的乙個問題 昨天花了4個小時找出第一層次的原因 這個糾結啊,本來和老婆說好準時下班回家吃飯的,結果被這個問題拖了老久。這是乙個gradle的plugin,用來resolve公司內部的dependency的,弄完了跑測試專案的,拋乙個npe,而且npe還不在自己的 裡面。...

記一次 EqualsAndHashCode的疑惑

lombok的使用真的是讓開發人員欲罷不能,乙個 data不管有多少屬性全部搞定,以後加字段也不用從新生成get和set方法。不過這裡還是有乙個小坑需要注意一下,舉個例子 public class equalsandhashcodetest data noargsconstructor access...

記一次除錯

這是我最近幾個月來遇到的最棘手的乙個問題 昨天花了4個小時找出第一層次的原因 這個糾結啊,本來和老婆說好準時下班回家吃飯的,結果被這個問題拖了老久。這是乙個gradle的plugin,用來resolve公司內部的dependency的,弄完了跑測試專案的,拋乙個npe,而且npe還不在自己的 裡面。...