spark運算元分類

2021-09-28 12:45:12 字數 748 閱讀 4520

transformation運算元:不觸發提交作業,完成作業中間處理過程

value資料型別的transformation運算元

輸入分割槽與輸出分割槽一對一型

輸入分割槽與輸出分割槽多對一型

輸入分割槽與輸出分割槽多對多型

輸出分割槽為輸入分割槽子集型

cache型

key-value資料型別的transformation運算元

輸入分割槽與輸出分割槽一對一

對單個rdd聚集

對兩個rdd聚集

連線 action行動運算元:觸發spark的sparkcontext提交job作業

無輸出

hdfs

scala集合和資料型別

1. cache

cache的功能是快取.針對頻繁使用的資料/資料處理,cache將資料快取到記憶體中,便於下次讀取.

cache不會馬上執行快取操作

2. checkpoint

checkpoint的功能是建立檢查點,類似於快照.針對計算時間特別長的dag計算流程,checkpoint可以將dag中比較重要的中間資料做乙個檢查點,儲存到乙個高可用的地方,比如hdfs.

checkpoint不會馬上執行建立檢查點操作

checkpoint之前最好先cache一下

有 0 個人打賞

文章最後發布於: 2018-01-24 11:34:01

展開閱讀全文

spark運算元 五 action運算元

collect package com.doit.spark.demoday05 import org.apache.spark.sparkcontext author 向陽木 date 2020 09 22 22 19 description 將資料以陣列形式收集回driver端,資料按照分割槽編...

Spark運算元詳解

目錄 spark常用運算元詳解 3.getnumpartitions 4.partitions 5.foreachpartition 6.coalesce 7.repartition 8.union,zip,join 9.zipwithindex,zipwithuniqueid 未完待續.本文主要介...

spark常見運算元

transfomation運算元 描述map 返回乙個新的rdd,該rdd由每乙個輸入元素經過func函式轉換後組成.就是講傳進去的rdd的每個元素轉換成新的元素 flatmap flatmaprdd運算元就是把裡面的元素,經過乙個方法,把原來的元素由乙個變成多個 filter 過濾。返回乙個新的r...