Spark原始碼分析筆記（一）環境準備

已有環境hdfs+spark+yarn

進入spark-shell

val lines=sc.textfile("../readme.md",2)
val words=lines.flatmap(line=>line.split(" "))
val ones=words.map(w=>(w,1))
val counts=ones.reducebykey(_+_)

第一步，將檔案讀取，處理成rdd[string]型別。其中textfile（path，minpartition），path可以寫成hdfs上的路徑，否則在執行4的時候，會報錯找不到檔案。因為檔案儲存在hdfs上，會根據block的大小將檔案拆分成相應的分割槽，minpartition引數傳給spark，那麼spark讀取檔案的時候，會使用相應數目的執行緒進行處理？（minpartition的具體含義）

第二，三步，將單詞分割，並將每個單詞map成（word，1）

第四步，執行reduce統計每個單詞的個數

如下圖

saprk-shell開啟spark的人機互動介面repl，在介面輸入scala**，可以進行對資料的處理

spark-shell處理互動內容的過程：

指令->spark-shell->spark-submit->spark-class->啟動sparksubmit程序

sparksubmit程序：sparksubmit.main->repl.main->sparkiloop.process->initializespark->createsparkcontext->sparkconf,sparkcontext

sparkconf 接收處理配置引數

sparkcontext 為要處理的內容，返回rdd

Spark原始碼分析筆記（一）環境準備

MPI筆記（一）環境

一環境配置

一環境安裝

Spark原始碼分析筆記（一）環境準備

MPI筆記（一）環境

一 環境配置

一 環境安裝

相關推薦

一環境配置

一環境安裝