spark RDD 簡單了解

2021-09-11 06:12:58 字數 335 閱讀 2504

–什麼是spark rdd

rdd是乙個彈性可復原的分布式資料集!

–spark rdd 的特性

spark rdd 的特性最重要的有兩個,乙個是rdd 彈性,另外乙個是 rdd 的容錯性。

1.rdd 的資料預設情況下存放在記憶體中的,但是在記憶體資源不足時,spark 會自動將rdd 資料寫入磁碟中,saprk 這種選擇性的在記憶體和硬碟上的權衡機制就是rdd的彈性特點所在。

2.容錯性,體現在可以自動從節點失敗中恢復過來,即如果某個節點上的rdd partition,因為節點故障,導致資料丟失,那麼rdd會自動通過自己的資料來源重新計算該partition,這一切對使用者是透明的。

spark RDD程式設計

rdd就是乙個不可變的分布式物件集合。建立rdd 1 讀取乙個外部資料集 sparkcontext.textfile 2 在驅動器程式中對乙個集合進行並行化。rdd 操 作 1 轉 化 操 作 transformation 會由乙個 rdd 生成乙個新的 rdd。2 行 動 操 作 action 會...

sql簡單了解

sql是一種資料庫語言,資料庫是用來儲存 管理 組織資料的倉庫。sql中有許多的關鍵字,現在只了解下很重要的,經常出現的關鍵字。查詢select,要和from連用。where是指明位置的關鍵字,其內容很豐富。delete刪除,刪除無儲存。delete from xx where xx。update更...

C lambda簡單了解

auto lambdafunc lambda的最簡單格式是 他只有對符合和乙個分號,分別代表的是 表示要開始乙個lambda函式 在這裡面可以寫引數 函式體 語句結束 其中的用法有如下 不擷取外部的任何變數,也就是說引用不到外部變數 擷取外部變數,並且作為引用的方式在lambda函式中使用。也就是說...