pyspark動作函式

2021-10-25 19:26:09 字數 966 閱讀 1094

本文列舉幾個常見的pyspark動作函式,幾個常見的轉換函式點這裡

count()

返回資料集中的元素個數

collect()

以列表的形式返回資料集中的所有元素

first()

返回資料集中的第乙個元素

take(n)

以陣列的形式返回資料集中的前n個元素

reduce(func)

通過函式func(輸入兩個引數並返回乙個值)聚合資料集中的元素

foreach(func)

將資料集中的每個元素傳遞到函式func中執行

rdd = sc.parallelize([1

,2,3

,4,5

])rdd.collect(

)

輸出

[1,

2,3,

4,5]

rdd.first(

)

輸出

1
rdd.take(n)
輸出

[1,

2,3]

rdd.

reduce

(lambda a,b:a+b)

輸出

15
rdd.foreach(

lambda elem:

print

(elem)

)

輸出

123

45

pyspark系列 日期函式

日期函式 from pyspark.sql.functions import current date spark.range 3 withcolumn date current date show id date 0 2018 03 23 1 2018 03 23 from pyspark.sql...

jQuery函式 動作繫結

jquery四大核心函式 1.sel 引號內書寫選擇器,在全文或者指定內容中拿取元素 span etoak 2.html 直接在引號內書寫html超文字標籤,多用來配合一些方法使用 xx 3.dom 將dom節點轉化為jquery元素 document 4.document ready 為元素繫結事...

PySpark入門三 常用的函式 上

在jupyter notebook中如何使用pyspark?開啟anaconda prompt 並使用pip 安裝好pyspark第三方庫。pip install pyspark 導包 from pyspark import sparkcontext 建立會話 sc sparkcontext.get...