線上問題分析方案

2022-06-30 14:45:13 字數 940 閱讀 5487

常見問題及處理流程:

定位點:應用場景.資料庫監控,查詢,慢查詢,io操作,引擎.

分析伺服器上業務,看具體業務查相應的指標.各層依賴都要做監控.

依賴服務

問題分析依賴於乙個較完善的監控平台提供各個指標,以便於進行問題定位,找到最終問題點.具體監控平台改造有兩種方式:

搭建比較完備的監控.監控應用,監控應用依賴資源,中介軟體,連線等.可以進行快速關聯,各種維度的指標.最簡單的關聯就是根據時間關聯;

避免直連,通過邊車模式,可以快捷的獲取監控指標.分析查詢操作,時間,各種指標.(推薦)

方案一採用直連方式,需要修改業務**,業務改動比較大;

方案二避免直連,通過proxy模式來進行業務和監控平台互動,可以避免業務耦合,無需業務**修改;

監控分類:

指標類日誌類

鏈路層面(高階層面)

具體監控內容根據應用又可以劃分為:

應用runtime

中介軟體db

作業系統runtime

各個層次取樣指標.鏈路,黑盒時才使用perf等命令.

解決方式:

針對不同的問題狀況,基本可以分為兩種

突發性:

觀察業務流量,業務日誌,看問題**,再做具體關聯.

定時出現:

觀察固定點監控,一般是定時任務,觀察流量,請求.

其中突發性的問題排查比較麻煩,因為你無法找到問題規律,如果監控指標不完善,很難進行問題分析,只能完成監控指標後,等待下次問題再次發生;

而定時出現的問題排查相對簡單一些,因為有規律可循,問題較好定位,一般解決較容易些;

解決方式一般步驟:

top free,觀查關鍵指標.

看日誌,分析一些問題,關聯應用,確定具體是什麼引起的

補充檢測指標.

觀察外部訪問

具體分析指標參考:

一般非緊急排查方案

celery 線上問題

專案中使用celery 去做非同步化處理。針對不同的訊息佇列都會啟動8個worker去消費。啟動入口是supervisor,拉起django 的指令碼。再由指令碼去拉起所有的消費程序。線上celery 容器不停的掛死。通過監控可以看到記憶體過一段時間就會到達記憶體配置值。這時候專案跑不動。htopm...

線上問題排查

問題排查方 長期改進建議 由於業務應用 bug 本身或引入第三方庫 環境原因 硬體問題等原因,線上服務出現故障 問題幾乎不可避免。例如,常見的現象包括請求超時 使用者明顯感受到系統發生卡頓等等。作為乙個合格的研發人員 技術人員 不僅要能寫得一手好 掌握如何排查問題技巧也是研發人高階必須掌握的實戰技能...

PHP FPM線上狀態分析

一 php fpm狀態分析 1 啟用php fpm狀態分析 pm.status path status 2 nginx配置 server 3 重啟php fpm與nginx 4 狀態檢視 curl pool www process manager dynamic start time 14 may ...