RDDAPI詳解rdd資料模型及rdd的sql實現

2021-07-04 05:56:43 字數 510 閱讀 7007

5個元素

1. rdd返回的partition物件集合

2. 資料本地性 driver master 資料本地性

3. 返回依賴關係,只需要關注parents ,簡化了模型計算

4. 迭代器,不同框架和計算時讀取父rdd都是一樣的,基於同一種型別的迴圈非常高效

5. partitioner

rdd不變性儲存,也可以帶來細粒度的控制,我們可以對資料版本記錄

rdd怎麼控制資料分割槽,通過key值進行分割槽,

spark利用了記憶體儲存的低延遲性

rdd精髓在機器學習和圖計算

資料的列式儲存,shark sparksql,通過rdd可以儲存複雜格式,

通過lineage進行容錯,但是這些要求資料的不變性

spark高效執行sql,

dag區域性執行

有失真壓縮,

概念資料模型 邏輯資料模型 物理資料模型

概念資料模型設計與邏輯資料模型設計 物理資料模型設計是資料庫及資料倉儲模型設計的三個主要步驟。在資料倉儲領域有乙個概念叫conceptual data model,中文一般翻譯為 概念資料模型 概念資料模型是終端使用者對資料儲存的看法,反映了終端使用者綜合性的資訊需求,它以資料類的方式描述企業級的資...

概念資料模型,邏輯資料模型,物理資料模型

在資料倉儲領域有乙個概念叫conceptual data model,中文一般翻譯為 概念資料模型 概念資料模型是終端使用者對資料儲存的看法,反映了終端使用者綜合性的資訊需求,它以資料類的方式描述企業級的資料需求,資料類代表了在業務環境中自然聚集成的幾個主要類別資料。概念資料模型的內容包括重要的實體...

資料模型 概念資料模型,邏輯資料模型,物理資料模型

資料模型所描述的內容包括三個部分 資料結構 資料操作 資料約束。1 資料結構 資料模型中的資料結構主要描述資料的型別 內容 性質以及資料間的聯絡等。資料結構是資料模型的基礎,資料操作和約束都建立在資料結構上。不同的資料結構具有不同的操作和約束。2 資料操作 資料模型中資料操作主要描述在相應的資料結構...