大資料學習之Spark(1)

2021-09-27 02:00:43 字數 1118 閱讀 7627

2019.09.10
1、 spark的特點

2、總體架構

包括:

3、常見術語

兩個抽象部件:sparkcontext、rdd

必須建立乙個sparkcontext類例項,且只能擁有乙個啟用的sparkcontext類例項

1、最簡便方法

val sc = new sparkcontext()

2、建立sparkcontext類例項,設定配置資訊

val sc = new sparkcontext(config)

表示關於分割槽資料元素的集合,spark中定義的抽象類。

特點:<1> parallelize:本地scala集合建立rdd例項(重分割槽、重分布,返回乙個rdd)。

//從儲存於hdfs上的乙個檔案或目錄中讀取多個檔案,建立rdd例項

val rdd = sc.textfile("hdfs://namenode:9000/path/to/file-or-directory")

//下面的建立方法可以讀取壓縮檔案中的資料,引數中可以存在萬用字元,用於從乙個目錄中讀取多個檔案

val rdd = sc.textfile("hdfs://namenode:9000/path/to/directory/*.gz")

//textfile第二個引數是乙個可選引數,用於指定分割槽個數,spark預設為每乙個檔案分塊建立乙個分割槽,可以設定成更大數字,但不可以設定的比檔案分塊數小

val rdd = sc.wholetextfiles("path/to/my-data/*txt")
<4> sequencefile:從sequencefile檔案中獲取鍵值對資料,返回乙個鍵值對型rdd例項。

//使用時需要檔名,檔案中鍵和值各自的型別

val rdd = sc.sequencefile[string,string]("some-file")

spark官方文件 Spark(1) 寫在前面

原始碼環境說明 spark 2.2.0 clustermanager yarn hadoop 2.6.5 spark版本進入2.0.0以後更新速度明顯放緩,最新的2.4.0版本穩定性有待驗證,投入生產環境為時尚早且更新的新特性較少,所以選擇了2.2.0版本作為投稿的原始碼環境。原始碼的分析順序按照s...

spark 1 架構設計 基本流程

spark執行架構包括 1 集群資源管理器 cluster manager 2 執行作業任務的工作節點 worker node 3 每個應用的任務控制節點 driver 和每個工作節點上負責具體任務的執行程序 executor 其中,集群資源管理器可以是spark自帶的資源管理器,也可以是yarn或...

大資料之spark學習記錄一 Intro

1.x 版本 從架構的角度存在很多的問題 namenode是單點操作,所以容易出現單點故障,制約了hdfs的發展 namenode的記憶體限制也影響了hdfs的發展 mapreduce是一種基於資料集的工作模式,面向資料,這種工作模式一般是從儲存上載入資料集,然後運算元據集,最好將結果寫入儲存裝置。...