Spark快速大資料分析 第三章RDD程式設計2

2021-10-02 19:58:16 字數 1620 閱讀 7121

// 初始化 sparkconf

val conf =

newsparkconf()

.setmaster

("local").

()val sc =

newsparkcontext

(conf)

// 輸入文字

val lines = sc.

parallelize

(list(1

,2,3

,3))

/

/ 返回所有

val collect = lines.collect()/

/ 對rdd中的每個元素使用給定函式

collect.

foreach

(println)

// 1

// 2

// 3

// 3

// 返回個數

val count = lines.

count()

println

(count)

// 4

// 各元素在rdd**現的次數

val countbyvalue = lines.

countbyvalue()

println

(countbyvalue)

// map(1 -> 1, 3 -> 2, 2 -> 1)

/

/ 從rdd中返回num個元素

val take = lines.take(2)

take.

foreach

(println)

// 1

// 2

// 最前面的num個元素

val top = lines.

top(2)

top.

foreach

(println)

// 3

// 3

// 並行整合rdd中所有資料

val reduce = lines.reduce((x, y) => x + y)

println(reduce)

// 9

// 與reduce類似,預設1個task,會增加2次 給定初值

val fold = lines.fold(1)((x, y) => x + y)

println(「fold:」 + fold)

// fold:11

// 與reduce()相似,但是通常返回不同型別

// 求和,計數, 同時進行兩種運算

val aggregate = lines.

aggregate((

0,0)

)((acc, value)

=>

(acc._1 + value, acc._2 +1)

,(acc1, acc2)

=>

(acc1._1 + acc2._1, acc1._2 + acc2._2)

)println

(aggregate)

資料分析第三章 資料準備

1.資料表的設計 1 資料表由標題行和資料部分組 2 第一行是表的列標題 欄位名 列標題不重複 3 第二行起始資料部分,資料部分的每一行資料稱為乙個記錄,並且資料部分不允許出現空白行和空白列。4 資料表中不能有合併單元格存在。5 資料表與其他資料之間應該流出至少乙個空白行和乙個空白列 6 資料表需要...

Python資料分析與挖掘實戰 第三章

目錄 第三章 資料探索 一 資料探索 二 資料質量分析 1.主要任務 2.缺失值分析 3.異常值分析 4.一致性分析 三 資料特徵分析 1.分布分析 2.對比分析 3.統計量分析 4.週期性分析 5.貢獻度分析 6.相關性分析 資料預處理的前提 檢查原始資料中是否存在髒資料 髒資料 不符合要求,以及...

第三章 詞法分析

詞法分析的主要目的是將輸入的字串輸出為乙個個單獨的單詞符號。即從左至右逐個字元的對源程式進行掃瞄,產生乙個個的單詞符號,把作為字串的源程式改造成為由單詞符號串組成的程式。實現這種過程需要借助詞法分析器,其輸入時源程式,輸出為單詞符號,其實現過程如下 單詞的種類基本字 保留字,關鍵字 由程式語言定義的...