線上問題排查

2021-10-08 14:56:47 字數 544 閱讀 8658

問題排查方**

長期改進建議

由於業務應用 bug(本身或引入第三方庫)、環境原因、硬體問題等原因,線上服務出現故障 / 問題幾乎不可避免。例如,常見的現象包括請求超時、使用者明顯感受到系統發生卡頓等等。

作為乙個合格的研發人員(技術人員),不僅要能寫得一手好**,掌握如何排查問題技巧也是研發人高階必須掌握的實戰技能。這裡提到的排查問題不僅僅是在coding的過程中debug,還包括測試階段、線上發布階段問題的排查。特別是在生產環境中,一般是沒辦法或很難進行debug操作的。 而通過掌握服務線上問題排查思路並能夠熟練排查問題常用工具 / 命令 / 平台來獲取執行時的具體情況,這些執行時資訊包括但不限於執行日誌、異常堆疊、堆使用情況、gc情況、jvm引數情況、執行緒情況等。

排查出問題並找到根本原因加以解決,其實是一件很成就感的事情。曾經有人問過我:「你是怎麼想到問題出現在***的?又是怎麼確認根本原因是***的?」,我只能輕描淡寫的回答:「靠經驗」,其實這裡說的「靠經驗」是很模糊的,一直以來大家可能都覺得排查問題要靠經驗,但是又說不出具體通過什麼樣的經驗排查出了問題。而本質上排查定位線上問題是具有一定技巧

線上ZK問題排查

問題描述 測試環境zk集群的三個節點中zk1狀態雖然是follower,啟動也能正常啟動 通過telnet也能telnet 2181埠 無法通過zk客戶端去連線2181埠,狀態一致是connecting 檢視zk集群所有節點狀態 data zookeeper new 1 bin zkserver.s...

技術 排查線上問題

產品交付後對於專案管理人員往往就是工作接近尾聲,但是對於一線開發和運維的小夥伴,那是維護工作的起點.線上問題對於程式設計師來說其實就是生產環境中遇到的問題總稱,優先順序對於開發同學和運維同學來說是最高端別.當一位工程師遇到線上問題,一般都會放下手頭的工作,優先全力解決線上問題.往往系統運維工作和線上...

線上操作與線上問題排查實戰

一 了解機器連線數情況 問題 192.168.88.136的sshd的監聽埠是22,如何統計192.168.88.136的sshd服務各種連線狀態 time wait close wait established 的連線數。netstat an grep 192.168.88.136 22 awk ...