Spark深入淺出之從原始碼看Spark布局

2021-10-23 07:37:15 字數 645 閱讀 8473

自動的進行記憶體和磁碟資料儲存的切換

基於lineage的高效容錯(第n個節點出錯,會從n-1個節點恢復,血統容錯)

task如果失敗會自動進行特定次數的重試(預設4次)

stage如果失敗會自動進行特定次數的重試(可以只執行計算失敗的階段),只計算失敗的資料分片

checkpoint和persist

dag,task和資源管理無關

資料分片的高度彈性(eg:如果有100萬資料碎片要合成1萬個。要用coalesce(numpartitions: int,shuffle: boolean = false) .不能用repartition。because : repartition呼叫了coalesce 但是shuffle預設為true.這樣的話就會造成shuffle開銷很大,且行且珍惜~)

rdd的寫操作是粗粒度的但是rdd的讀操作既可以是粗粒度的也可以是細粒度的。為了效率。

使用程式中的集合建立rdd

意義:測試

使用本地檔案系統建立rdd

意義:測試大量資料的檔案

使用hdfs建立rdd

意義:生產環境最常用的rdd

基於db建立rdd

基於nosql建立rdd 例如 hbase

基於啥s3建立rdd

基於資料流建立rdd

深入淺出之STL

c stl 標準模板庫 是一套功能強大的 c 模板類,提供了通用的模板類和函式,這些模板類和函式可以實現多種流行和常用的演算法和資料結構,如向量 鍊錶 佇列 棧。c 標準模板庫的核心包括以下三個元件 元件描述 容器 containers 容器是用來管理某一類物件的集合。c 提供了各種不同型別的容器,...

Spark2 1 0 深入淺出度量系統

對於乙個系統而言,首先考慮要滿足一些業務場景,並實現功能。隨著系統功能越來越多,量級越來越高,系統的可維護性 可測試性 效能都會成為新的挑戰,這時監控功能就變得越來越重要了。在國內,絕大多數it公司的專案都以業務為導向,以完成功能為目標,這些專案在立項 設計 開發 上線的各個階段,很少有人會考慮到監...

C 深入淺出之指標

1 指標陣列 char str 10 指標陣列,顧名思義是乙個陣列,其元素是乙個指標。上述 是定義乙個指標陣列,其陣列元素為指向字元的指標。所謂指標陣列,重頭戲在於陣列,指標可以抽象為修飾符,那麼如何來理解指標陣列呢?很簡單,的優先順序高於 因此先被結合,加上陣列名,就構成了陣列。2 陣列指標 in...