集群排程架構的變革一

原文：

集群排程器是現代基礎設施很重要的元件，尤其在最近幾年有很大發展。架構從單體應用的設計進化成更靈活，分散的，分布式的設計。但是，目前很多開源能提供的還是單體應用或缺了關鍵特性。這些特性對於真實世界的使用者很重要，因為他們需要很高的使用率。

這是我們發布的第一篇關於在大集群上進行任務排程的系列文章，那些在亞馬遜，谷歌，facebook，微軟或雅虎實際在使用的。排程是乙個重要的話題，因為它直接影響操作集群的成本：乙個差排程器會導致極低的使用率，讓昂貴的機器空閒，導致浪費錢。高使用率，對於集群自己並不容易：除非仔細的決策，負載之間會互相影響。

這篇文章主要討論排程架構在近些年是如何進化的，以及這為什麼發生。圖一將這些不同的方式視覺化：灰色的方塊代表乙個機器，圓圈代表乙個任務，乙個裡面標著s的團員性代表乙個排程器。箭頭表示排程器做的決策，三種顏色代表不同型別的負載（例如，web服務，批量分析，機器學習）。

許多集群排程器 - 例如高效能計算（hpc）排程器，borg排程器，早期hadoop排程器和kubernetes排程器 - 都是單體的。乙個單例的排程程序泡在乙個機器上（例如，hadoop第一版的jobtracker，kubernetes的kube-scheduler）並且給機器排程任務。所有的負載被同乙個排程器來處理，所有的任務跑著相同的排程邏輯（圖1a）。這樣簡單並統一，卻導致了越來越複雜的排程器。舉個例子，可以看看paragon和quasar排程器，使用了機器學習的方式來避免在資源上相互衝突的負載排程。

在今天很多集群執行很多不同型別的應用（在早期只有hadoop mapreduce任務在執行）。因此維護單個的排程器實現處理混合型的負載很需要技巧，原因如下：

很明顯我們期望乙個排程器按不同的方式來處理長週期服務型任務和批量分析型任務。

不同的應用有不同的需求，要支援他們所有的需求需要給排程器新增許多特性，增加了邏輯和實現的複雜性。

排程器處理任務的順序成了問題：佇列效應（佇列頭部阻塞 head-of-line blocking）與積壓問題需要小心地設計排程器。

綜上所述，這聽起來是乙個工程上的噩夢 - 排程器的開發者會收到無窮無盡的特性需求。

集群排程架構的變革一

集群排程架構的變革二

Solr集群的架構

BoCloud花磊專注金融IT架構的變革

集群排程架構的變革 一

集群排程架構的變革 二

Solr集群的架構

BoCloud花磊 專注金融IT架構的變革

相關推薦

集群排程架構的變革一

集群排程架構的變革二

BoCloud花磊專注金融IT架構的變革