CPU利用率突增排查總結

2021-10-10 17:27:54 字數 921 閱讀 6636

處理cpu突增問題時,首先要對整個系統的整體結構和流量路徑做到心中有數。例如流量進入系統要經過負載均衡、閘道器、服務…

引起高利用率的原因可能多種多樣,具體情況需要根據具體位置的警報來進行判斷。

表現:整個系統鏈路上各個環節流量均正常。

可能原因:現如今微服務部署,一台物理機上可能劃分多個虛擬機器,並分配給不同的業務使用。由於由於單機硬體效能影響,及同宿主機的其它業務影響,導致自身服務部可用。

解決:快速禁用服務,更換機器。通過服務管理中心禁用改機服務,隨後替換。

注意事項:這種情況一定是先處理故障,再排查具體影響。保證業務穩定。

表現:監控系統上關於訊息服務、http、rpc等請求量快速增長。流量較低時,未出現問題,高流量時發生問題。

可能原因

解決

注意事項:如果資源充足的情況,有限使用擴容,這樣盡量保證服務可用。其次再考慮限流,同事要評估限流導致的損失是否可控。

表現:與2.2原因一致,只是這種邏輯問題在小流量情況下也會導致服務不可用,單機cpu利用率過高。

可能原因:開發時邏輯有問題。

解決

注意事項:這種問題,在發布時,一定是要灰度發布,並有乙個觀察期。隨後出現問題快速回滾。

遇到這種問題,優先要保證服務可用。先不要去考慮原因。快速限流、重啟、擴容、甚至混滾系統,隨後逐步恢復流量。事後分析場景,解決問題。

在沒有自動化平台時,要熟練了解解決這些問題的工具。

[1]

cpu利用率 CPU利用率錯誤

cpu利用率 cpu利用率是每個人用來衡量處理器效能的指標。netflix的高階效能架構師布倫丹 格雷格 brendan gregg 在第16屆年度南加州linux expo scale 上稱其為 五分鐘公共服務公告 但 cpu卻是一種誤導性的衡量指標,說明處理器的實際繁忙程度。布倫丹在他的閃電演講...

SQL SERVER 檢視CPU利用率

檢視cpu利用率 create procedure sp gettop10 cpu as begin set nocount on declare cinterval char 8 declare interval int set cinterval 00 00 10 create table th...

SQL SERVER 檢視CPU利用率

檢視cpu利用率 create procedure sp gettop10 cpu as begin set nocount on declare cinterval char 8 declare interval int set cinterval 00 00 10 create table th...