雙倍提公升Apache Spark排序效能

2015-1-25 13:18| 發布者: joejoe0332

| 檢視: 466

摘要: 區別常見的embarrassingly parallel系統，類似mapreduce和apache spark（apache hadoop的下一代資料處理引擎）這樣的計算引擎主要區別在於對「all-to-all」操作的支援上。和許多分布式引擎一樣，mapreduce和spark的 ...

cloudera和英特爾公司的工程師們正在通力合作，旨在使spark shuffle階段具有更高的可擴充套件性和穩定性。本文對相關方法的設計進行了詳細描述。

區別常見的embarrassingly parallel系統，類似mapreduce和apache spark（apache hadoop的下一代資料處理引擎）這樣的計算引擎主要區別在於對「all-to-all」操作的支援上。和許多分布式引擎一樣，mapreduce和spark的操作通常針對的是被分片資料集的子分片，很多操作每次只處理單個資料節點，同時這些操作所涉及到的資料往往都只存在於這個資料片內。all-to-all操作必須將資料集看作乙個整體，而每個輸出結果都可以總結自不同分片上的記錄。spark的groupbykey、sortbykey，還有reducebykey這些shuffle功能都屬於這方面常見的操作。

在這些分布式計算引擎中，shuffle指的是在乙個all-to-all操作中將資料再分割和聚合的操作。顯而易見，在實踐生產中，我們在spark部署時所發現的大多效能、可擴充套件性及穩定性問題都是在shuffle過程中產生的。

cloudera和英特爾的工程師們正通力合作以擴充套件spark的shuffle，使得shuffle可以更加快速與穩定地處理大量的資料集。spark在很多方面相較mapreduce有更多優勢，同時又在穩定性與可擴充套件性上相差無幾。在此，我們從久經考驗的mapreduce shuffle部署中吸取經驗，以提高排序資料輸出的shuffle效能。

在本文中，我們將會逐層解析——介紹目前spark shuffle的運作實現模式，提出修改建議，並對效能的提高方式進行分析。更多的工作進展可以於正在進行中的spark-2926發現。

乙個shuffle包含兩組任務：1. 產生shuffle資料的階段；2.使用shuffle資料的階段。鑑於歷史原因，寫入資料的任務被稱做「map task」，而讀取資料的任務被稱做「reduce tasks」，但是以上角色分配只侷限於單個job的某個具體shuffle過程中。在乙個shuffle中扮演reduce的task，在另乙個shuffle中可能就是map了，因為它在前者裡面執行的是讀取操作，而在後者中執行的是資料寫入任務，並在隨後的階段中被消費。

mapreduce和spark的shuffle都使用到了「pull」模式。在每個map任務中，資料被寫入本地磁碟，然後在reduce任務中會遠端請求讀取這些資料。由於shuffle使用的是all-to-all模式，任何map任務輸出的記錄組都可能用於任意reduce。乙個job在map時的shuffle操作基於以下原則：所有用於同乙個reduce操作的結果都會被寫入到相鄰的組別中，以便獲取資料時更為簡單。

spark預設的shuffle實現（即hash-based shuffle）是map階段為每個reduce任務單獨開啟乙個檔案，這種操作勝在簡單，但實際中卻有一些問題，比如說實現時spark必須維持大量的記憶體消耗，或者造成大量的隨機磁碟i/o。此外，如果m和r分別代表著乙個shuffle操作中的map和reduce數量，則hash-based shuffle需要產生總共m*r個數量的臨時檔案，shuffle consolidation將這個數量減至c*r個（這裡的c代表的是同時能夠執行的map任務數量），但即便是經過這樣的修改之後，在執行的reducer數量過多時還是經常會出現「檔案開啟過多」的限制。

hash-based shuffle中單個map任務

sort-based shuffle中單個map任務

為了進一步提高shuffle的穩定性與效能，從1.1版本開始，spark引入了「sort-based shuffle」實現，其功能與mapreduce使用的map方式十分類似。在部署時，每個任務的map輸出結果都會被儲存在記憶體裡（直到可用記憶體耗盡），然後在reduce任務中進行排序，之後再spill到乙個單獨的檔案。如果在單個任務中該操作發生了多次，那麼這個任務的輸出將被合併。

雙倍提公升Apache Spark排序效能

Apache Spark 入門知識

Apache Spark集群模式選擇

Apache Spark機器學習3 8 小結

雙倍提公升Apache Spark排序效能

Apache Spark 入門知識

Apache Spark集群模式選擇

Apache Spark機器學習3 8 小結

相關推薦