可觀察性驅動開發，探索未知之地

可觀察性驅動開發與監控有什麼不同？隨著我們的分布式系統變得越來越複雜，隨著我們對devops測試、自動化和效率的追求，筒倉的打破，為了了解**中未知的未知，odd作為一種超級監控而出現。本文包括honeycomb創始人charity majors的見解。

毫無疑問，系統越分散就越複雜。這使得24/7監控和隨叫隨到的輪流值班對大多數公司來說都至關重要。但是，可觀察性是如何影響我們越來越短的devops反饋迴圈的呢？本文概括介紹了從honeycomb創始人和可觀察性的強烈支持者charity majors那裡了解到的關於可觀察性驅動開發的經驗。

在倫敦舉辦的cloudnative 2018大會上，majors說：「起初，反饋迴路是，當你造成了破壞，人們會對你大喊大叫，然後，當你修好它的時候，他們就會稱讚你。但後來，網際網路出現了，我們的系統變得更加複雜。」

majors回憶說，我們都是從擁有自己的軟體開始的——因為誰還會擁有它——但是，當我們距離擁有它越來越遠的時候，我們就失去了判斷錯誤的能力。筒倉讓開發人員越來越遠離**的執行，devops運動是「一種回歸優雅、回歸良性反饋迴圈狀態的嘗試，」majors這樣說道。

每個開發人員都需要擁有自己的**，從編寫到部署，再到除錯和再次部署。majors認為，少了任何東西就不是完全的devops：

它使軟體變得更好，除錯人員在軟體執行期間進行除錯時可以獲得最相關的上下文資訊。

她接下來介紹了charity的devops原則：

編寫**的人可以也應該部署他們的**並在生產環境中提供支援。

devops自動化的目的不僅僅是為了提高速度，它還是為了將開發人員從非創造性的、乏味的修復工作中解放出來，重新激發並利用開發人員的內在動機和創造力：

讓我們感到滿足和欣慰的東西全和自主性、感覺被授權以及構建一些重要的東西並關心它是否被完成好有關。

當然，這與dan pink提出的知識型員工的三個關鍵內在動機相一致：自主性、精通性和目的性。

然而，開發人員一次又一次地發布在本地設定中看起來沒有問題的**，而一旦部署，各種問題就接踵而至。發現問題可能就需要幾天時間，就更不用說解決問題了。majors警告說：

分布式系統的第乙個教訓是，你的系統永遠不會全無問題——任何時候都存在許多災難性狀態。

然而，一旦你運用了可觀察性驅動開發，使用了合適的棧、工具，特別是視覺化，你就可以更快地發現和解決相同的系統缺陷，通常是幾個小時甚至幾分鐘。

什麼是可觀察性開發？它利用工具和有實際經驗的開發人員觀察系統的狀態和行為，讓你可以更多地了解該系統，包括缺陷模式。實際上，odd是在查詢系統，而監控只是為系統設定閾值並進行測量。

majors認為，測試驅動開發——編寫測試，然後編寫通過該測試的**的過程——現在已經準備好發展成可觀察性驅動開發。兩者都屬於行為驅動開發的範疇，但odd對行為表現出了更好的理解。

majors說，你還可以通過可觀察性驅動開發過程實現隨時待命。可觀察性是控制理論的一部分，該理論研究如何控制複雜的分布式系統。

僅通過詢問系統的話，你能知道你的系統、你的**裡發生了什麼。如果不提供新**，你能夠回答新問題嗎？

majors強調，這關乎實現恰當的抽象級別，而不是生成更複雜的**庫：

當你有乙個可觀察的系統時，你的團隊將在沒有先驗知識的情況下快速可靠地跟蹤任何新問題。他們會理解**和缺陷的使用者體驗、行為以及原因。

可觀察性並不否定監控，監控仍然是devops範疇的乙個重要部分。但據專業人士稱，在過去的20年裡，監控並沒有跟上時代的步伐，仍然主要適用於內部需求。

它會把過去中斷時的殘餘資訊轉換為那些指示板需要表達的東西——只有大約2%的軟體工程師理解這一點。

majors引用自動化工具sensu工程副總裁greg poirier的話說：「監控已死」。poirier認為，隨著時間的推移，對系統及其元件的行為和輸出進行觀察和檢查的行為——這是對可觀察性驅動開發的良好定義——使得對複雜系統進行監控成為一種過時的模型。

majors說，「很重要的一點是，要構建對人們有意義的工具，讓他們生活在同乙個現實中。」他談了清晰的、跨組織的儀錶盤的必要性。

對於majors來說，可觀察性就是確保「已知的未知」大於或等於「未知的未知」。

有些問題只有你找到方法才能看出來。你必須收集細節資訊，這樣才能找到其中的任何乙個。

分布式系統面臨著巨大的挑戰，因為它們實際上更類似於乙個相互連線的系統網路，其中許多系統超出了我們的控制範圍。因此，無法直接觀察它們。

majors指出，「架構的每個部分都是獨一無二的，所以你必須測試它。你必須在生產環境中測試它，因為在進入生產環境之前，你只能測試這麼多。」她解釋說，部署**不是乙個只有開/關狀態的二元開關。

當然，你可以在部署到過渡環境之前和部署到生產環境之後進行測試，但這可能會耗盡通常有限的工程資源。majors建議接受這樣的現實，無論你是否打算在生產環境中進行測試，並建議使用類似於金絲雀測試這樣的技術作為保障，幫助你實現可觀察性。

她將可觀察性稱為缺失的環節，它允許軟體所有者在生產環境中進行測試，提供軟體的事件優先視角，軟體是如何被使用的，以及它對這種使用的反應如何。

majors說，良好的自動化監控包括以下最佳實踐：

但是，對於微服務，它變得更加複雜，有更多「未知的未知」。

有太多的元件和儲存系統，你無法在頭腦中對整個系統建模。系統的健康並不重要——每個請求的健康才是最重要的。

tdd只覆蓋了已知的未知，這成為了乙個支援問題。這些都是可**的，可以在可**的時間框架內進行處理，並且可以在儀表板上進行監控。

「未知的未知」仍然是乙個工程問題。通常，在修復的過程中，這些問題是沒有預期結論的，需要對系統進行探索和創造力。這是開發者應該花時間去做的事情。可觀察性解決了這個巨大的未知。

majors說，要想正確地觀察事物，你應該在考慮構建什麼東西的時候就把它加入進來，讓它成為你開發過程中固有的一部分。

她說，這是關於尋找未知，從內到外進行系統微調。它是關於成為下乙個使用者的優秀軟體管理員，即使那個使用者六個月後想知道你為什麼會做出那樣的選擇。

進入軟體的內部，向你自己和天真的使用者說明這個軟體——找到那些線索，留下它們，這樣，未來的你就可以追溯到它的源頭。

監控主要與度量有關，而可觀察性則與事件有關。majors建議首先致力於除錯高基數事件——重要但通常是唯一的資訊，如標識號、使用者名稱和電子郵件位址——因為它們涉及大量上下文和跟蹤資訊。

她說，事件講述的故事可以幫助你發現來龍去脈和異常值，從而幫助你找出問題所在。她繼續說，頻寬和成本限制了你隨時儲存「所有資料」的能力，但「因為這是我們大腦的工作方式，這是我們**的工作方式」，所以構建聚合資料日誌是至關重要的。

根據majors的說法，建立儀表板並不是答案：「它是以往故障的產物。它會跳到答案，而不是從乙個問題開始，」majors主張什麼都要實時，而不是掌握趨勢。她繼續解釋說，可觀察性要求能夠從取樣資料一直深入到原始請求。聚合不起作用，因為你永遠無法再次展開以前合併在一起的資料。但是，抽樣可以讓你保留足夠的細節，以便以後提出更多問題。可觀察性是關於問乙個問題並追蹤答案。然後問乙個新問題。重複這個迴圈，直到發現「未知的未知」。

服務確實需要所有者，而不是運維者，它們需要所有者在編寫一行**之前就關心可觀察性。

她認為，在將來的某個時候，人工智慧和機器學習將使軟體達到能夠感知環境和自我修復的水平。

關於majors的看法，有乙個重要的前提，就是適當的可觀察性將大幅減少呼叫告警，只有延遲問題會被標記出來。

jennifer riggins是一位科技故事講述者和作家，在這個領域，數字變革與文化交匯，她希望能使世界變得更美好。感興趣的讀者可以關注她的推特（@jkriggins）。

檢視英文原文：[observability-driven development for tackling the great unknown](

可觀察性驅動開發，探索未知之地

可觀察性驅動開發與監控有什麼不同？隨著我們的分布式系統變得越來越複雜，隨著我們對devops測試自動化和效率的追求，筒倉的打破，為了了解中未知的未知，odd作為一種超級監控而出現。本文包括honeycomb創始人charity majors的見解。毫無疑問，系統越分散就越複雜。這使得24 7監控...

可觀察性驅動開發，探索未知之地

可觀察性驅動開發，探索未知之地

可觀察性驅動開發，探索未知之地

可觀察性驅動開發，探索未知之地

相關推薦