假期學習 五 RDD程式設計實驗四

2022-06-29 02:15:11 字數 1421 閱讀 7897

今天完成了實驗四的第二問和第三問

第二題對於兩個輸入檔案 a 和 b,編寫 spark 獨立應用程式,對兩個檔案進行合併,並剔除其

中重複的內容,得到乙個新檔案 c。下面是輸入檔案和輸出檔案的乙個樣例,供參考。

輸入檔案 a 的樣例如下:

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

輸入檔案 b 的樣例如下:

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根據輸入的檔案 a 和 b 合併得到的輸出檔案 c 的樣例如下:

源**如下

實驗結果:

第三題每個輸入檔案表示班級學生某個學科的成績,每行內容由兩個字段組成,第乙個是學生

名字,第二個是學生的成績;編寫 spark 獨立應用程式求出所有學生的平均成績,並輸出到

乙個新檔案中。下面是輸入檔案和輸出檔案的乙個樣例,供參考。

algorithm 成績:

小明 92

小紅 87

小新 82

小麗 90

database 成績:

小明 95

小紅 81

小新 89

小麗 85

python 成績:

小明 82

小紅 83

小新 94

小麗 91

平均成績如下:

(小紅,83.67)

(小新,88.33)

(小明,89.67)

(小麗,88.67)

源**如下:

執行結果:

實驗四RDD程式設計初級實踐

1.spark shell互動式程式設計 1 該系總共有多少學生 2 該系共開設來多少門課程 3 tom 同學的總成績平均分是多少 4 求每名同學的選修的課程門數 5 該系 database 課程共有多少人選修 6 各門課程的平均分是多少 2.編寫獨立應用程式實現資料去重 對於兩個輸入檔案 a 和 ...

spark學習 RDD程式設計

rdd建立 從從檔案系統中載入資料建立rdd 1.spark採用textfile 從檔案系統中載入資料建立rdd 可以使本地,分布式系統等 2.把檔案的url作為引數 可以是本地檔案系統的位址,分布式檔案系統hdfs的位址等等 從本地檔案中載入資料 sc為系統自動建立的sparkcontext,不用...

Spark學習 RDD程式設計基礎

spark上開發的應用程式都是由乙個driver programe構成,這個所謂的驅動程式在spark集群通過跑main函式來執行各種並行操作。集群上的所有節點進行平行計算需要共同訪問乙個分割槽元素的集合,這就是rdd rdd resilient distributed dataset 彈性分布式資...