大資料筆記1

spark實現平行計算：把超大的資料集合分成n個分塊的資料集，用m個執行器（mspark是一種分布式並行處理計算框架，與hadoop聯合使用，增強hadoop的效能，增加記憶體快取、流資料處理、圖形處理等高階的資料處理能力。

spark的中間結果儲存在記憶體上，在迭代計算方面擁有更好的效能,而mapreduce的中間結果儲存在hdfs上。

spark直到rdd第一次呼叫乙個action時才真正呼叫rdd。

spark中可以呼叫persist(持久化)方法表明當前rdd在後面的操作中還會用到。spark預設將呼叫過的persist方法儲存在記憶體中，若記憶體不足也會儲存到硬碟上，也可以指定persist的引數，呼叫其它的持久化策略(如tachyon)並通過標記進行persist。使用者可以為每個rdd設定優先順序來決定記憶體中的哪些資料應該被優先調入磁碟。

rdds依賴關係：

窄依賴：每個父rdd至多只能被乙個子rdd分割槽使用，或多個父rdd對應乙個子rdd，即onetoonedependecies

寬依賴：多個子rdd可以依賴乙個父rdd的分割槽，即onetomanydependecies

注：map操作是乙個窄依賴。join是寬依賴（除非父rdd被hash策略劃分過）

map函式：接收乙個鍵值對（key-value pair）,產生中間鍵值對，mapreduce框架將中間鍵值對中key值相同的值傳遞給reduce函式。

map將任務輸出結果儲存在本地磁碟而不是hdfs

大資料筆記1

大資料學習筆記1

大資料讀書筆記 1

大資料學習筆記城市計算 1

大資料筆記1

大資料學習筆記1

大資料讀書筆記 1

大資料學習筆記 城市計算 1

相關推薦

大資料學習筆記城市計算 1