微服務治理 hongxinerke

微服務遠端呼叫可能有如下問題：

註冊中心宕機；

服務提供者b有節點宕機；

服務消費者a和註冊中心之間的網路不通；

服務提供者b和註冊中心之間的網路不通；

服務消費者a和服務提供者b之間的網路不通；

服務提供者b有些節點效能變慢；

服務提供者b短時間內出現問題。

常用的服務治理手段：

節點管理

服務呼叫失敗一般是由兩類原因引起的，一類是服務提供者自身出現問題，如伺服器宕機、程序意外退出等；一類是網路問題，如服務提供者、註冊中心、服務消費者這三者任意兩者之間的網路出現問題。

無論是服務提供者自身出現問題還是網路發生問題，都有兩種節點管理手段。

1. 註冊中心主動摘除機制

這種機制要求服務提供者定時的主動向註冊中心匯報心跳，註冊中心根據服務提供者節點最近一次匯報心跳的時間與上一次匯報心跳時間做比較，如果超出一定時間，就認為服務提供者出現問題，繼而把節點從服務列表中摘除，並把最近的可用服務節點列表推送給服務消費者。

2. 服務消費者摘除機制

雖然註冊中心主動摘除機制可以解決服務提供者節點異常的問題，但如果是因為註冊中心與服務提供者之間的網路出現異常，最壞的情況是註冊中心會把服務節點全部摘除，導致服務消費者沒有可用的服務節點呼叫，但其實這時候服務提供者本身是正常的。所以，將存活探測機制用在服務消費者這一端更合理，如果服務消費者呼叫服務提供者節點失敗，就將這個節點從記憶體中儲存的可用服務提供者節點列表中移除。

負載均衡

一般情況下，服務提供者節點不是唯一的，多是以集群的方式存在，尤其是對於大規模的服務呼叫來說，服務提供者節點數目可能有上百上千個。由於機器採購批次的不同，不同服務節點本身的配置也可能存在很大差異，新採購的機器cpu和記憶體配置可能要高一些，同等請求量情況下，效能要好於舊的機器。對於服務消費者而言，在從服務列表中選取可用節點時，如果能讓配置較高的新機器多承擔一些流量的話，就能充分利用新機器的效能。這就需要對負載均衡演算法做一些調整。

常用的負載均衡演算法主要包括以下幾種。

1. 隨機演算法

顧名思義就是從可用的服務節點中隨機選取乙個節點。一般情況下，隨機演算法是均勻的，也就是說後端服務節點無論配置好壞，最終得到的呼叫量都差不多。

2. 輪詢演算法

就是按照固定的權重，對可用服務節點進行輪詢。如果所有服務節點的權重都是相同的，則每個節點的呼叫量也是差不多的。但可以給某些硬體配置較好的節點的權重調大些，這樣的話就會得到更大的呼叫量，從而充分發揮其效能優勢，提高整體呼叫的平均效能。

3. 最少活躍呼叫演算法

這種演算法是在服務消費者這一端的記憶體裡動態維護著同每乙個服務節點之間的連線數，當呼叫某個服務節點時，就給與這個服務節點之間的連線數加1，呼叫返回後，就給連線數減1。然後每次在選擇服務節點時，根據記憶體裡維護的連線數倒序排列，選擇連線數最小的節點發起呼叫，也就是選擇了呼叫量最小的服務節點，效能理論上也是最優的。

4. 一致性hash演算法

指相同引數的請求總是發到同一服務節點。當某乙個服務節點出現故障時，原本發往該節點的請求，基於虛擬節點機制，平攤到其他節點上，不會引起劇烈變動。

這幾種演算法的實現難度也是逐步提公升的，所以選擇哪種節點擊取的負載均衡演算法要根據實際場景而定。如果後端服務節點的配置沒有差異，同等呼叫量下效能也沒有差異的話，選擇隨機或者輪詢演算法比較合適；如果後端服務節點存在比較明顯的配置和效能差異，選擇最少活躍呼叫演算法比較合適。

服務路由

對於服務消費者而言，在記憶體中的可用服務節點列表中選擇哪個節點不僅由負載均衡演算法決定，還由路由規則確定。

所謂的路由規則，就是通過一定的規則如條件表示式或者正規表示式來限定服務節點的選擇範圍。

為什麼要制定路由規則呢？主要有兩個原因。

1. 業務存在灰度發布的需求

比如，服務提供者做了功能變更，但希望先只讓部分人群使用，然後根據這部分人群的使用反饋，再來決定是否做全量發布。這個時候，就可以通過類似按尾號進行灰度的規則限定只有一定比例的人群才會訪問新發布的服務節點。

2. 多機房就近訪問的需求

據我所知，大部分業務規模中等及以上的網際網路公司，為了業務的高可用性，都會將自己的業務部署在不止乙個idc中。這個時候就存在乙個問題，不同idc之間的訪問由於要跨idc，通過專線訪問，尤其是idc相距比較遠時延遲就會比較大，比如北京和廣州的專線延遲一般在30ms左右，這對於某些延時敏感性的業務是不可接受的，所以就要一次服務呼叫盡量選擇同乙個idc內部的節點，從而減少網路耗時開銷，提高效能。這時一般可以通過ip段規則來控制訪問，在選擇服務節點時，優先選擇同一ip段的節點。

那麼路由規則該如何配置呢？根據我的實際專案經驗，一般有兩種配置方式。

1. 靜態配置

就是在服務消費者本地存放服務呼叫的路由規則，在服務呼叫期間，路由規則不會發生改變，要想改變就需要修改服務消費者本地配置，上線後才能生效。

2. 動態配置

這種方式下，路由規則是存在註冊中心的，服務消費者定期去請求註冊中心來保持同步，要想改變服務消費者的路由配置，可以通過修改註冊中心的配置，服務消費者在下乙個同步週期之後，就會請求註冊中心來更新配置，從而實現動態更新。

服務容錯

服務呼叫並不總是一定成功的，可能因為服務提供者節點自身宕機、程序異常退出或者服務消費者與提供者之間的網路出現故障等原因。對於服務呼叫失敗的情況，需要有手段自動恢復，來保證呼叫成功。

常用的手段主要有以下幾種。

failover：失敗自動切換。就是服務消費者發現呼叫失敗或者超時後，自動從可用的服務節點列表總選擇下乙個節點重新發起呼叫，也可以設定重試的次數。這種策略要求服務呼叫的操作必須是冪等的，也就是說無論呼叫多少次，只要是同乙個呼叫，返回的結果都是相同的，一般適合服務呼叫是讀請求的場景。

failback：失敗通知。就是服務消費者呼叫失敗或者超時後，不再重試，而是根據失敗的詳細資訊，來決定後續的執行策略。比如對於非冪等的呼叫場景，如果呼叫失敗後，不能簡單地重試，而是應該查詢服務端的狀態，看呼叫到底是否實際生效，如果已經生效了就不能再重試了；如果沒有生效可以再發起一次呼叫。

failcache：失敗快取。就是服務消費者呼叫失敗或者超時後，不立即發起重試，而是隔一段時間後再次嘗試發起呼叫。比如後端服務可能一段時間內都有問題，如果立即發起重試，可能會加劇問題，反而不利於後端服務的恢復。如果隔一段時間待後端節點恢復後，再次發起呼叫效果會更好。

failfast：快速失敗。就是服務消費者呼叫一次失敗後，不再重試。實際在業務執行時，一般非核心業務的呼叫，會採用快速失敗策略，呼叫失敗後一般就記錄下失敗日誌就返回了。

對服務容錯不同策略的描述中，可以看出它們的使用場景是不同的，一般情況下對於冪等的呼叫，可以選擇failover或者failcache，非冪等的呼叫可以選擇failback或者failfast。

微服務治理 hongxinerke

微服務概覽與治理

微服務學習筆記微服務治理得方式

eureka心跳微服務之服務治理 Eureka

微服務治理 hongxinerke

微服務概覽與治理

微服務學習筆記 微服務治理得方式

eureka心跳 微服務之服務治理 Eureka

相關推薦

微服務學習筆記微服務治理得方式

eureka心跳微服務之服務治理 Eureka