記一次生產報too man open files

2021-10-07 18:50:15 字數 709 閱讀 8629

有一天私有雲無法訪問,馬上聯絡廠商,最後廠商發現好多容器不停重啟,經過日誌檢視發現平台開啟檔案控制代碼太多,很奇怪,就開始排查,最後發現乙個埠,定位到應用spring actuator.

這個應用是我為了監控微服務而發布的乙個監控應用,馬上看日誌,發現應用報錯,too many open files,愣了,從來沒遇到過啊。求助運維哥,

1、獲取應用程序號

ps -ef|grep spring actuator

2、進入到程序

cd /proc/4801

3、檢視程序詳情 

4、檢視程序開啟檔案控制代碼的詳細資訊

圖不全,發現開啟了好多socket,

5、統計開啟控制代碼數

ls |wc -l

1000多個,究竟什麼鬼。

基本用的都是原生框架,裡面沒有自己寫的**,所以懷疑spring-boot-admin-starter-server(2.2.3)有問題,換個版本吧,

版本換成2.2.1

繼續用剛才上面的方式統計開啟控制代碼數觀察,80左右個控制代碼數,正常。至此問題解決。

看來spring有時候也坑啊

記一次生產故障,nginx503

問題概述 web頁面進行login操作,控制台報503 系統版本 centos 6.8 服務架構 前端兩個nginx 伺服器,可外網,中間兩台業務伺服器,使用docker起兩組服務 後端3臺redis 哨兵 和三颱mongo 問題分析 由控制台報503可知是伺服器內部原因,可能是網路或者服務方面。解...

記一次生產Slor分組的bug

solr的facet有多種形式,它們的引數不盡相同。可以用於text或者string型別的字段。引數說明 facet.field 需要做facet查詢的字段,必須指定,否則其他引數無效 facet.sort 排序規則,可以是count 預設值,由大到小 或index 字典順序 facet.limit...

記一次生產請求耗時的問題

最近發現lb上記錄的request time比upstream response time大的比較多,例如upstream response time記錄是0.062,request time記錄的就是5.064等等。整個耗時很反常。而且出現這個問題基本上都是乙個返回值比較大的介面,基本上返回值是1...