關於系統運維監控的幾點建議

2021-07-23 14:45:13 字數 2174 閱讀 9773

為了更好、更有效的保障系統上線後的穩定的執行。對於伺服器的硬體資源、效能、頻寬、埠、程序、服務等都必須有乙個可靠和可持續的監測機制,統計分析每天的各種資料,從而能及時反映出伺服器**存在效能瓶頸、安全隱患等。另外是要有危機意識,就是了解伺服器有可能出現哪些嚴重的問題,出現這些問題後該如何去迅速處理。比如資料庫的資料丟失,日誌容量過大,被黑客入侵等等。

一、上線之前的準備工作

1、首先是備份,做好定時備份策略,備份所有你認為重要的資料,並且定期檢查你的備份是否有效、全面;

2、日誌輪換,無論你想用哪種輪換方式,控制日誌增長避免驅動器已滿是你的目的;

3、做一定的安全措施,如防火牆iptables的訪問控制,用denyhosts防止黑客遠端暴力破解;

4、mysql遠端登入許可權等等;

5、最後就是伺服器、網元裝置的監控。

二、監控策略

1、定義告警優先順序策略

一般的監控到的結果是成功或者失敗,如ping不通、訪問網頁出錯、連線不到socket,發生時這些稱之為故障,故障是最優先的告警。除此之外,還能監控到返回的延時、內容等,如ping返回的延時、訪問網頁的時間、訪問網頁取到的內容等。利用返回的結果可以自定義告警條件,如ping監控的返回延時一般是10-30ms之間,當延時大於100ms時候,表示網路或者伺服器可能出現問題,引起網路響應慢,需要立即檢查是否流量過大或者伺服器cpu太高等問題。

2、定義告警資訊內容標準

3、通過郵件接收彙總報表

每天收到一封**伺服器監控的彙總報表郵件,花個兩三分鐘就大致了解**和伺服器狀態。

4、 集中監控和分布式監控相結合

主動(集中)監控雖然能不需要安裝**和程式,非常安全和方便,但缺少很多細緻的監控內容,如無法獲取硬碟大小、cpu的使用率、網路的流量等,這些監控內容非常有用,如cpu太高表示有**或者程式出問題,流量太高表示可能被攻擊等。

被動(分布式)監控常用的是snmp(簡單網路管理協議),通過snmp能監控到大部分你感興趣的內容。大部分作業系統支援snmp,開通管理非常方便,也非常安全。snmp缺點是比較占用頻寬,會消耗一定的cpu和記憶體,在cpu太高和網路流量大情況下,無法有效進行監控。

5、定義故障告警主次

對於監控同一臺伺服器的服務,需要定義乙個主要監控物件,當主要監控物件出現故障,只傳送主要監控物件的告警,其它次要的監控物件暫停監控和告警。例如用ping來做主要監控物件,如果ping不通出現timeout,表示伺服器已經當機或者斷網,這時只傳送伺服器ping告警持續監控ping,因為再繼續監控和告警其它服務已經沒有必要。這樣能大大減少告警訊息數量,又讓監控更加合理、更加有效率。

6、本地監控指令碼的規範化部署

對在本地部署的監控指令碼要進行統一規範的部署並記錄到km系統。

7、實現對常見性故障業務自我修復功能

實現對常見性故障業務自我修復功能指令碼進行統一部署並對修復後故障進行檢查告警檢查頻次不多於3次。

8、對監控的業務系統進行分級

一級系統實現7*24小時告警,二級系統實現7*12小時告警,**系統實現5*8小時告警。

9、 監控範圍及目標

實現對負載均衡裝置、網路裝置、伺服器、儲存裝置、安全裝置、資料庫、中介軟體及應用軟體等it資源的全面監控管理;同時自動收集、過濾、關聯和分析各種管理功能產生的故障事件,實現對故障的提前預警和快速定位;對網路和業務應用等it資源的效能進行監控,定期提供效能報表和趨勢報表,為效能優化及未來系統擴容提供科學依據。

通常情況下,我們可以將監控物件這麼來分:

1.伺服器監控,主要監控伺服器如:cpu 負載、記憶體使用率、磁碟使用率、登陸使用者數、程序狀態、網絡卡狀態等。

2.應用程式監控,主要監控該應用程式的服務狀態,吞吐量和響應時間,因為不同應用需要監控的物件不同,這裡不一一枚舉。

3.資料庫監控,只所以把資料庫監控單獨列出來,足以說明它的重要性,一般監控資料庫狀態,資料庫表或者表空間的使用情況,是否有死鎖,錯誤日誌,效能資訊等等。

4.網路監控,主要監控當前的網路狀況,網路流量等。

以上四條應該算是最基本的,也是保證**正常執行必須要知道的幾點內容,這樣才能實現我們常說的「運籌帷幄之中,決勝千里之外」。

【附錄】

免費開源:cacti 、nagios 、ganglia 、zabbix 、pingdom 、munin、monitorix、mrtg、 observer、 zenoss 、collectd、 argus 、monit、 graphite 、linux-dash和****** server monitor 、sshtop等

運維經驗分享 關於系統運維監控的幾點建議

為了更好 更有效的保障系統上線後的穩定的執行。對於伺服器的硬體資源 效能 頻寬 埠 程序 服務等都必須有乙個可靠和可持續的監測機制,統計分析每天的各種資料,從而能及時反映出伺服器 存在效能瓶頸 安全隱患等。另外是要有危機意識,就是了解伺服器有可能出現哪些嚴重的問題,出現這些問題後該如何去迅速處理。比...

Linux系統運維之運維監控 pdf格式

linux系統運維之運維監控 本文是系統運維工程師的實用手冊 主要講解基於 linux 平台運維工作中需要掌握的監控知識 本文全部基於實際應用 部署步驟詳細 可以直接複製用於生產環境的安裝配置 幫助剛剛接觸 linux運維的朋友們,迅速搭建企業級的監控平台。本文共分為五個部分 第一部分簡單的介紹了監...

IT系統運維監控 被動式旁路監控

個人研究心得 1 各種監控方式 zabbix和nagios等監控軟體,主要通過snmp和agent等,對網路裝置的效能 連通性和可用性進行監控,但沒有監控應用程式的響應時間等,it人員和管理人員很難快速定位網路延時等問題。主動監測,在客戶端 模仿 使用者正常使用應用程式,實施複雜,不斷的重複會占用網...