Spark core詳解系列二

2021-09-29 22:13:59 字數 1167 閱讀 5238

collect:把rdd中所有元素返回到乙個陣列,返回到driver端的memory中。

如非要檢視rdd中的資料:取出部分資料,或把rdd輸出到檔案系統。

foreach

rdd.foreach(println)

rdd.foreachpartition(partition => partition.map(println)) //沒有輸出,輸出在每個executor。

思考:sortby是全域性排序嗎?是。

rdd. sortby(_._2,false). foreach(println) //雖然sortby是全域性排序,但由於不止乙個分割槽,foreach輸出的時候分割槽的先後順序隨機,又把全域性排序後的資料打亂了。

rdd.count() //元素的個數

rdd.reduce(_+_) //兩兩操作

rdd.first() //底層呼叫的是take方法

rdd.take(2) //返回頭兩個元素的陣列

rdd.top(2) //底層呼叫的是takeordered方法。

top是從大到小排序取值,takeordered是從小到大排序取值。

rdd.zipwithindex().countbykey() //元素和index構成乙個個元組,index在後。countbykey是action運算元,統計key的次數

rdd.zipwithindex().collectasmap() //返回的是元素和index的map對。

官網位址

注意

Spark core詳解系列四

要求 資料如下 a,1,3a,2,4b,1,1根據資料第一列統計得到如下結果 a,3,7b,1,1用rdd實現。實現功能核心 如下 val input sc.parallelize list list a 1 3 list a 2 4 list b 1 1 input.map x reducebyk...

Solrj Java API呼叫詳解系列(二)

上篇文章提到了環境搭建 與solr建立連線以及簡單的查詢如何實現。本文將繼續介紹一些複雜的查詢api如何使用。一 或者關係的查詢 1 solrquery.add string,string val 介面 query.add name newstring name是solr的schema.xml檔案中...

sip協議詳解 系列(二)

sip的核心請求訊息 invite ack options bye cancel 和 register invite invite可以在郵件正文中包含主叫方的 資訊。如果invite已經接收到成功響應 2xx 或已經傳送ack,則會話被認為是建立的。成功的invite請求在兩個使用者 之間建立對話,...