對spark中RDD的理解

2021-07-09 15:44:03 字數 359 閱讀 4059

update at 2016.1.25

rdd作者的**鏈結

**的理解:

spark要解決的問題:

1、有些資料要多次讀寫,磁碟速度很慢

2、沒有互動的介面,不能看到中間結果

適用的應用:

1、機器學習:多個迭代次運算,逼近(優化問題)。==》是不是三維重建中優化也可以用到這個

2、計算結果還要用的:pagerank

解決辦法==》資料抽象成rdd+memory-cache

其中提到finer- grained shared memory abstractions ,那麼coarse又是什麼呢

沒看懂rdd是怎麼實現的

繼續學習

Spark中RDD資料結構的理解

spark在國內的大量普及,越來越多人學習spark技術,作為spark core中最重要的資料結構rdd,是學習spark重點之一 rdd resilient distributed datasets,彈性分布式資料集 是spark最為核心的概念,自然也是理解apache spark 工作原理的最...

對Spark的理解

spark作為乙個新的分布式計算引擎正慢慢流行起來,越來越來的企業也準備用它的替換mapreduce,根據自己在工作的一些體會談談的優勢。分布式計算歸根到底還是乙個map和reduce操作,map操作對每個資料塊進行計算,reduce操作對結果進行彙總,現在一些nosql分布式資料庫其實也是這麼一套...

spark中建立RDD的方式

spark中建立rdd的幾種方式 1 使用程式中的集合建立rdd 一般用於測試 2 使用本地檔案系統建立rdd 一般用於資料量大的檔案的測試 3 基於hdfs建立rdd 生產環境最常用的rdd建立方式 4 使用s3建立rdd 5 基於資料流建立rdd packagecom.dt.spark impo...