技術 排查線上問題

2022-08-22 01:27:08 字數 1670 閱讀 9339

產品交付後對於專案管理人員往往就是工作接近尾聲,但是對於一線開發和運維的小夥伴,那是維護工作的起點.

線上問題對於程式設計師來說其實就是生產環境中遇到的問題總稱,優先順序對於開發同學和運維同學來說是最高端別.當一位工程師遇到線上問題,一般都會放下手頭的工作,優先全力解決線上問題.

往往系統運維工作和線上環境問題的解決會花費更高的人員成本.左耳朵耗子(曾經說過,網際網路產品拼的就是運維工作.

那麼面對和處理各種各樣的線上問題,是程式設計師和運維工程師的必修課.它不僅僅是一項純技術操作,它還考察了開發或者運維的判斷問題的能力以及決策解決方案的能力.

線上問題大致分為以下幾大類:

對於線上問題的解決步驟,個人認為大致分為四個步驟:

了解問題

定位問題原因

提出解決方案並實施

問題回溯反思

完成以上四個步驟之前一定切記:優先最快速的恢復線上服務.

線上問題的反饋**分為兩種:主動發現,被動通知

獲取了問題資訊後,先要對問題進行簡單的分析,它是屬於線上問題分類中的哪一類,例如:使用者反饋說賬號登入不上去了?我們可以使用內部賬號進行登入測試,

如果沒有問題,就可以考慮是不是使用者操作問題.

如果內部賬號也登陸不了,我們可以考慮是不是大面積使用者登入不了,還是個別賬號問題.

如果是大面積登入不了,就可以考慮是業務**出現問題或者底層服務(資料庫)環境同步有問題,

從而把問題進行分類.

在分類的同時,我們已經在做了第二步的操作:定位問題原因.

定位問題是乙個懷疑自己或者團隊,然後又否定懷疑的過程.

定位一般懷疑的目標有以下幾種:

接下來我們就要針對上述的懷疑目標提供強有力的證據.

上面只是大致羅列了可能產生問題的原因.

很多線上問題有可能是上面幾個因素共同導致的,開發和運維同學也只能通過自己的經驗進行更多資訊的收集,產生懷疑然後分析出問題的原因.

這個過程其實會調動到多方資源,也是乙個考察團隊協作和溝通的能力.問題定位出來後,就會進入下一步解決方案的制定和執行.

其實問題的解決和實施在整個線上問題的處理流程中相對第二步較為簡單,針對上面的幾個問題產生的原因也有相對粗糙的操作方案.解決方案的提出和實施目的是盡可能保證生產環境基本可用.完美修復線上問題是乙個需要持續投入人力和精力的工作.

針對如下的問題產生的原因

大致的解決方案如下:

線上問題的解決還是講究乙個」」字,減少線上服務的停機時間,從而提高使用者的滿意度,當線上核心業務流程受到影響時,要優先保證核心業務的可用.盡可能的滿足使用者的基本使用需求.

問題回溯是指在解決線上問題之後,對於平時開發流程和線上問題定位解決流程的反思,通過反思整個處理問題的過程,找出在處理問題流程中的不足,找出導致問題的原因,進而優化團隊的開發模式和找出更適合自己團隊的線上問題處理流程.例如:對於團隊的開發同學的**提出一些指導建議,對於運維中遇到的部署問題制定更詳細的部署手冊或者引入自動化部署,減少人工錯誤等等.

回溯的目的是為了提高團隊的協作效率和工作質量,而不是為了批評或者指責導致線上問題的同學.另一方面也是積累經驗,形成文件為大家提供學習素材,減少以後線上問題的產生.

總之,線上問題依然是開發和運維同學不可避免的」噩夢」,祝大家早日從夢中醒來. 

--業務運維的痛點。。。

來自notalk.cc部落格 

-eof-

線上問題排查

問題排查方 長期改進建議 由於業務應用 bug 本身或引入第三方庫 環境原因 硬體問題等原因,線上服務出現故障 問題幾乎不可避免。例如,常見的現象包括請求超時 使用者明顯感受到系統發生卡頓等等。作為乙個合格的研發人員 技術人員 不僅要能寫得一手好 掌握如何排查問題技巧也是研發人高階必須掌握的實戰技能...

線上ZK問題排查

問題描述 測試環境zk集群的三個節點中zk1狀態雖然是follower,啟動也能正常啟動 通過telnet也能telnet 2181埠 無法通過zk客戶端去連線2181埠,狀態一致是connecting 檢視zk集群所有節點狀態 data zookeeper new 1 bin zkserver.s...

線上操作與線上問題排查實戰

一 了解機器連線數情況 問題 192.168.88.136的sshd的監聽埠是22,如何統計192.168.88.136的sshd服務各種連線狀態 time wait close wait established 的連線數。netstat an grep 192.168.88.136 22 awk ...