Spark RDD概念學習系列之RDD的操作（七）

rdd的操作

rdd支援兩種操作：轉換和動作。

1）轉換，即從現有的資料集建立乙個新的資料集。

2）動作，即在資料集上進行計算後，返回乙個值給driver程式。

例如，map就是一種轉換，它將資料集每乙個元素都傳遞給函式，並返回乙個新的分布式資料集表示結果。另乙個方面，reduce是一種動作，通過一些函式將所有元素疊加起來，並將最終結果返回driver（還有乙個並行的reducebykey，能返回乙個分布式資料集）。

下圖描述了從外部資料來源建立rdd，經過多次轉換，通過乙個動作操作將結果寫回外部儲存系統的邏輯執行圖。整個過程的計算都是在worker中的executor中執行。

圖 1　 rdd的建立、轉換和動作的邏輯計算圖

rdd的轉換

rdd中的所有轉換都是惰性的，也就是說，它們並不會直接計算結果。相反的，它們只是記住這些應用到基礎資料集（例如乙個檔案）上的轉換動作。只有當發生乙個要求返回結果給driver的動作時，這些轉換才會真正執行。這個設計讓spark更加有效率地執行。例如我們可以實現：通過map建立的乙個新資料集，並在reduce中使用，最終只返回reduce的結果給driver，而不是整個大的新資料集。圖2描述了rdd在進行groupbyrey時的內部rdd轉換的實現邏輯圖。圖3描述了reducebykey的實現邏輯圖。

圖2　rdd groupbykey的邏輯轉換圖　　

圖3 rdd reducebykey 的邏輯轉換圖

預設情況下，每乙個轉換過的rdd都會在它執行乙個動作時被重新計算。不過也可以使用persist（或者cache）方法，在記憶體中持久化乙個rdd。在這種情況下，spark將會在集群中儲存相關元素，下次查詢這個rdd時能更快訪問它。也支援在磁碟上持久化資料集，或在集群間複製資料集。

Spark RDD概念學習系列之RDD的操作（七）

Spark RDD概念學習系列之如何建立RDD

Beam概念學習系列之PTransform資料處理

Storm概念學習系列之storm的功能和三大應用

Spark RDD概念學習系列之RDD的操作（七）

Spark RDD概念學習系列之如何建立RDD

Beam概念學習系列之PTransform資料處理

Storm概念學習系列之storm的功能和三大應用

相關推薦