spark複習筆記 1

2022-08-01 03:27:21 字數 1108 閱讀 6411

(1)用sc.textfile("  ")  來實現檔案的載入

val rdd1 = sc.testfile("

home/centos/test.txt

");//載入文字檔案,以換行符的方式切割文字檔案.array(hello world1 ,.........),產生第乙個彈性分布式資料集

(2)元素拿來之後對集合中的每個元素進行切割,按照空格進行切割

def map[u](f:string=>u)(implict evidence$3:scala.reflect.classtag[u]):org.apache.spark.rdd.rdd[u]

這個地方map是柯里化的,有兩個引數,第二個是隱式的,函式f是是從string型別到u的對映,把一行按照空格來進行切割

把每一行進行切割,切開之後,每個元素都變成了乙個陣列,第乙個元素是[hello world1],第二個元素是[hello world2],第三個元素是[hello world3],第四個元素是[hello world4],這個時候已經變成陣列的集合了

(3)val rdd2 = rdd1.flatmap(line=>line.split(" "));    //壓扁操作

(4)val rdd3 = rdd2.map(word=>(word,1))    //變換成對偶(k,v)

(5)val rdd4=reducebykey(_ + _)       //_是對每個元素的引用,按照key來聚合value

(6)rdd4.collect              //檢視結果

(7)一頓操作猛如虎

sc.textfile("

/home/centos/test.txt

").flatmap(_.split("

")).reducebykey(_ + _).collect

(8)單詞過濾 

sc.textfile("

/home/centos/test.txt

").flatmap(_.split("

")).filter(_.contains("

wor")).map((_,1)).reducebykey(_ + _).collect

spark學習筆記(1)

apache spark是一種新型的快速通用的集群計算引擎。spark是基於記憶體計算的大資料計算框架,提高了在大資料環境下資料處理的實時性,同時保證了高容錯性和高可伸縮性,允許使用者將spark部署在大量廉價的硬體之上。形成集群。分布式計算 記憶體計算 容錯多計算正規化 byte,char,sho...

HTML 複習筆記 1

html格式化 html 樣式 外部樣式表 當瀏覽器讀到乙個樣式表,它就會按照這個樣式表來對文件進行格式化。有以下三種方式來插入樣式表 當樣式需要被應用到很多頁面的時候,外部樣式表將是理想的選擇。使用外部樣式表,你就可以通過更改乙個檔案來改變整個站點的外觀。當單個檔案需要特別樣式時,就可以使用內部樣...

Linux 複習筆記1

1.linux嚴格區分大小寫 2.linux所有內容以檔案形式儲存,包括硬體 3.linux不靠副檔名區分檔案型別 壓縮包 gz,bz2,tar.bz2 tgz等 二進位制軟體包 rpm 指令碼檔案 sh 配置檔案 conf 分割槽每個block大小為4k 1.擁有相同的i節點和儲存block塊,可...