6 RDD綜合練習 更豐富的操作

2022-10-10 02:21:12 字數 1423 閱讀 3592

集合運算練習

內連線與外連線

join(), leftouterjoin(), rightouterjoin(), fullouterjoin()

多個考勤檔案,簽到日期彙總,出勤次數統計

三、綜合練習:學生課程分數

持久化 scm.cache()

總共有多少學生?map(), distinct(), count()

開設了多少門課程?

生成(姓名,課程分數)鍵值對rdd,觀察keys(),values()

每個學生選修了多少門課?map(), countbykey()

每門課程有多少個學生選?map(), countbyvalue() 

有多少個100分?

tom選修了幾門課?每門課多少分?filter(), map() rdd

tom選修了幾門課?每門課多少分?map(),lookup()  list

tom的成績按分數大小排序。filter(), map(), sortby()

tom的平均分。map(),lookup(),mean()

生成(課程,分數)rdd,觀察keys(),values()

每個分數+20平時分。

分別用mapvalues(func)和 map(func)實現。

並檢視不及格人數的變化。

6 RDD綜合練習 更豐富的操作

集合運算練習 內連線與外連線 join leftouterjoin rightouterjoin fullouterjoin 多個考勤檔案,簽到日期彙總,出勤次數統計 三 綜合練習 學生課程分數 總共有多少學生?map distinct count 開設了多少門課程?每個學生選修了多少門課?map ...

6 RDD綜合練習 更豐富的操作

多個考勤檔案,簽到日期彙總,出勤次數統計 reducebykey 是對key的value進行merge操作,在乙個 k,v 的rdd上呼叫,返回乙個 k,v 的rdd,使用指定的reduce函式,將相同key的值聚合到一起,與groupbykey類似,reduce任務的個數可以通過第二個可選的引數來...

spark複習筆記 6 RDD持久化

在spark中最重要的功能之一是跨操作在記憶體中持久化資料集。當你持久化乙個rdd的時候,每個節點都存放了乙個它在記憶體中計算的乙個分割槽,並在該資料集的其他操作中進行重用,持久化乙個rdd的時候,節點上的每個分割槽都會儲存到記憶體中,這使得將來的action更加的快。快取技術是迭代演算法和互動式查...