Action行動運算元

2021-09-10 05:56:16 字數 641 閱讀 7445

常用運算元:

count: 返回資料集中的元素數。會在結果計算完成後**到driver端

take(n): 返回乙個包含資料集前n個元素的集合

first: first=take(1),返回資料集中的第乙個元素

foreach: 迴圈遍歷資料集中的每個元素,執行相應的邏輯

collect: 將計算結果**到driver端

foreachpartition: 遍歷的資料是每個partition的資料。

countbykey: 作用到k,v格式的rdd上,根據key計數相同key的資料集元素。

countbyvalue: 根據資料集每個元素相同的內容來計數。返回相同內容的元素對應的條數。

reduce: 根據聚合邏輯聚合資料集中的每個元素。

spark運算元 五 action運算元

collect package com.doit.spark.demoday05 import org.apache.spark.sparkcontext author 向陽木 date 2020 09 22 22 19 description 將資料以陣列形式收集回driver端,資料按照分割槽編...

RDD行動運算元

作用 通過func函式聚集rdd中的所有元素,先聚合分區內資料,再聚合分區間資料。需求 建立乙個rdd,將所有元素聚合得到結果。1 建立乙個rdd int scala val rdd1 sc.makerdd 1 to 10,2 rdd1 org.apache.spark.rdd.rdd int pa...

Spark RDD 行動運算元

所謂的行動運算元,其實就是用於觸發rdd執行的方法 spark中,呼叫rdd物件的行動運算元,會執行作業,每一次呼叫,都會執行不同的作業 reduce 聚集rdd中的所有元素,先聚合分區內資料,再聚合分區間資料 val rdd rdd int sc.makerdd list 1 2,3 4 2 rd...