Spark原始碼分析筆記(一)環境準備

2021-08-21 12:54:05 字數 945 閱讀 4628

已有環境hdfs+spark+yarn

進入spark-shell

val lines=sc.textfile("../readme.md",2)

val words=lines.flatmap(line=>line.split(" "))

val ones=words.map(w=>(w,1))

val counts=ones.reducebykey(_+_)

第一步,將檔案讀取,處理成rdd[string]型別。其中textfile(path,minpartition),path可以寫成hdfs上的路徑,否則在執行4的時候,會報錯找不到檔案。因為檔案儲存在hdfs上,會根據block的大小將檔案拆分成相應的分割槽,minpartition引數傳給spark,那麼spark讀取檔案的時候,會使用相應數目的執行緒進行處理?(minpartition的具體含義)

第二,三步,將單詞分割,並將每個單詞map成(word,1)

第四步,執行reduce統計每個單詞的個數

如下圖

saprk-shell開啟spark的人機互動介面repl,在介面輸入scala**,可以進行對資料的處理

spark-shell處理互動內容的過程:

指令->spark-shell->spark-submit->spark-class->啟動sparksubmit程序

sparksubmit程序:sparksubmit.main->repl.main->sparkiloop.process->initializespark->createsparkcontext->sparkconf,sparkcontext

sparkconf 接收處理配置引數

sparkcontext 為要處理的內容,返回rdd

MPI筆記(一)環境

mpi筆記 一 環境 mpi筆記 二 點對點通訊 mpi筆記 三 集合通訊 mpi筆記 四 資料型別和派生資料型別 mpi筆記 五 組和通訊因子 mpi筆記 六 虛擬拓撲 mpi筆記 七 計算圓周率 我用的msmpi。msmpi提供了完整的使用說明 how to compile and run a ...

一 環境配置

2.公升級後發現原.net framework 專案打不開了 錯誤資訊 不支援此版本的 visual studio 無法開啟下列專案。專案型別無法安裝或此版本的 visual studio 無法支援它們。有關啟用這些專案型別或遷移您的資產的詳細資訊,請參閱在單擊 確定 後顯示的 遷移報告 中的詳細資...

一 環境安裝

1 安裝pip pip是管理安裝包的軟體,因為我環境中已經安裝了pycharm了,pip已經安裝完了。2 安裝virtualenv virtualenv可以方便的解決不同專案中對類庫的依賴問題。這通常是通過以下方式實現的 首先將常用的類庫安裝在系統環境中 然後為每個專案安裝獨立的類庫環境。這樣子可以...