spark複習筆記 1

(1)用sc.textfile("　　")　　來實現檔案的載入

val rdd1 = sc.testfile("
home/centos/test.txt
");//載入文字檔案，以換行符的方式切割文字檔案.array(hello world1 ,.........),產生第乙個彈性分布式資料集

(2)元素拿來之後對集合中的每個元素進行切割，按照空格進行切割

def map[u](f:string=>u)(implict evidence$3:scala.reflect.classtag[u]):org.apache.spark.rdd.rdd[u]

這個地方map是柯里化的，有兩個引數，第二個是隱式的，函式f是是從string型別到u的對映，把一行按照空格來進行切割

把每一行進行切割，切開之後，每個元素都變成了乙個陣列，第乙個元素是[hello world1]，第二個元素是[hello world2]，第三個元素是[hello world3]，第四個元素是[hello world4]，這個時候已經變成陣列的集合了

(3)val rdd2 = rdd1.flatmap(line=>line.split(" "));　　　　//壓扁操作

(4)val rdd3 = rdd2.map(word=>(word,1))　　　　//變換成對偶(k,v)

(5)val rdd4=reducebykey(_ + _)　　　　　　　//_是對每個元素的引用，按照key來聚合value

(6)rdd4.collect　　　　　　　　　　　　　　//檢視結果

(7)一頓操作猛如虎

sc.textfile("
/home/centos/test.txt
").flatmap(_.split("
")).reducebykey(_ + _).collect

(8)單詞過濾　

sc.textfile("
/home/centos/test.txt
").flatmap(_.split("
")).filter(_.contains("
wor")).map((_,1)).reducebykey(_ + _).collect

spark學習筆記（1）

apache spark是一種新型的快速通用的集群計算引擎。spark是基於記憶體計算的大資料計算框架，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將spark部署在大量廉價的硬體之上。形成集群。分布式計算記憶體計算容錯多計算正規化 byte，char，sho...

HTML 複習筆記 1

html格式化 html 樣式外部樣式表當瀏覽器讀到乙個樣式表，它就會按照這個樣式表來對文件進行格式化。有以下三種方式來插入樣式表當樣式需要被應用到很多頁面的時候，外部樣式表將是理想的選擇。使用外部樣式表，你就可以通過更改乙個檔案來改變整個站點的外觀。當單個檔案需要特別樣式時，就可以使用內部樣...

Linux 複習筆記1

1.linux嚴格區分大小寫 2.linux所有內容以檔案形式儲存，包括硬體 3.linux不靠副檔名區分檔案型別壓縮包 gz,bz2,tar.bz2 tgz等二進位制軟體包 rpm 指令碼檔案 sh 配置檔案 conf 分割槽每個block大小為4k 1.擁有相同的i節點和儲存block塊，可...

spark複習筆記 1

spark學習筆記（1）

HTML 複習筆記 1

Linux 複習筆記1

相關推薦