關於我們 運維監控開發Team

2021-06-29 12:36:09 字數 463 閱讀 7947

我們主要負責公司線上伺服器執行狀況監控、事件追蹤管理和分析、資源使用優化、運維平台開發、工具開發等,以提高和保障公司業務系統執行的高可用率,具體包括以下事宜:

1. 基礎運維監控:為保障業務系統基礎環境正常執行所做的一系列監控,主要包括網路、磁碟、記憶體、load、http等基礎性監控,使用工具為nagios、zabbix、python、shell。

2. 業務系統監控:基於各個業務系統產生的日誌資料,進行實時業務系統執行狀況的監控,如api介面5xx錯誤、登陸異常、傳送郵件功能失效、快取命中率下降等等,實現方式:fluentd+mongodb+php,目前資料量:1k+/秒(壓測實時處理資料量3w/s)。

3. 運維平台開發:構建運維資源統一管理和使用的平台。包括許可權管理、機器管理、事件管理、審計系統、監控系統等等。

4. 統計和展示:包括系統基礎執行資料、業務邏輯執行資料的統計和展示。

5. 團隊成員:監控工程師6人,開發5人。

監控與運維

監控神器 普羅公尺修斯prometheus elk elasticsearch logstash和kibana。一種很典型的mvc思想,模型持久層,檢視層和控制層。logstash擔任控制層的角色,負責蒐集和過濾資料。elasticsearch擔任資料持久層的角色,負責儲存資料。kibana擔任檢視...

01 運維監控

聽聞前輩所說,在監控不發達的時代,出行基本靠走,安全基本靠狗,那個時候沒有自動化監控的概念,都是人工盯著機器,進行輪班 每天上班第一件事情就是去巡視一下,看看各項軟體列印的資訊是否有異常,順便拿execl記錄一下。現在如今的企業中,運維就要負責成百上千臺的機器,傳統的方式依然不行,沒有高大上的方法是...

Prometheus 運維監控

prometheus 運維監控 1 prometheus 介紹詳解 2 prometheus 安裝部署 3 prometheus 配置檔案詳解 4 prometheus promsql 常用資源 5 prometheus 配置採集目標 6 prometheus 重新標籤 7 prometheus 標...