記一次dirty ratio引起的線上事故

2022-09-15 11:21:10 字數 920 閱讀 8000

磁碟》75% ,最終累計到100%

load1 遠遠》8

cpu & mem > 85%

kernel報錯如下:

預設情況下, linux會最多使用40%的可用記憶體作為檔案系統快取。當超過這個閾值後,檔案系統會把將快取中的記憶體全部寫入磁碟, 導致後續的io請求都是同步的。

將快取寫入磁碟時,有乙個預設120秒的超時時間。 出現此次問題的原因是io子系統的處理速度不夠快,不能在120秒將快取中的資料全部寫入磁碟。io系統響應緩慢,導致越來越多的請求堆積,最終系統記憶體全部被占用,導致系統失去響應。

此次異常報錯出的問題以及改進措施

問題改進措施

負責人完成時間

磁碟100%,沒有自動清理

補充自動清理指令碼或者機制

xx核心引數調整

vm.dirty_ratio=5 vm.dirty_background_ratio=10

xx核心引數說明:

系統當前值:

#sysctl -a| grep dirty

vm.dirty_background_ratio = 10

vm.dirty_background_bytes = 0

vm.dirty_ratio = 20

vm.dirty_bytes = 0

vm.dirty_writeback_centisecs = 500

vm.dirty_expire_centisecs = 3000

記一次加班所引起的深思

昨天公司進行上線前整合im聊天工具,我負責這塊的除錯,忙了一下午加上一晚上。實際上沒有難度的,但給我帶來了很多麻煩。讓我一一道來吧。除錯工作主要是在js端進行的,im又只能用ie來除錯,ie的debug工具我又不會用,我就是用了最原始的alert 場景是這樣的,當使用者已經登入 平台的時候,如果發起...

記 一次電流不夠引起的故障解決

前兩天處理了乙個筆者不怎麼常見的問題點,特別的在這裡記錄一下,以備之後不小心忘記後的註記。技能名稱 技能熟練度 技能教程鏈結 模擬電路 了解暫無 當前除錯一塊單板,筆者除錯的模組主要為訊號採集電路。功能為採集輸入的訊號波形並進行引數的輸出。測試人員在進行功能的驗證過程中,使用外部的輸入的交流訊號進入...

記一次bug size t x64引起的

環境 win7 vs2012,如下 include void func int n int main int argc,char argv 我們知道size t在win32下是4個位元組,在x64下是8個位元組。在win32下這樣寫是沒什麼問題的 但是在x64下得到的結果是 0xcccccccc00...