大資料筆記1

2021-08-08 15:11:53 字數 707 閱讀 8170

spark實現平行計算:把超大的資料集合分成n個分塊的資料集,用m個執行器(mspark是一種分布式並行處理計算框架,與hadoop聯合使用,增強hadoop的效能,增加記憶體快取、流資料處理、圖形處理等高階的資料處理能力。

spark的中間結果儲存在記憶體上,在迭代計算方面擁有更好的效能,而mapreduce的中間結果儲存在hdfs上。

spark直到rdd第一次呼叫乙個action時才真正呼叫rdd。

spark中可以呼叫persist(持久化)方法表明當前rdd在後面的操作中還會用到。spark預設將呼叫過的persist方法儲存在記憶體中,若記憶體不足也會儲存到硬碟上,也可以指定persist的引數,呼叫其它的持久化策略(如tachyon)並通過標記進行persist。使用者可以為每個rdd設定優先順序來決定記憶體中的哪些資料應該被優先調入磁碟。

rdds依賴關係:

窄依賴:每個父rdd至多只能被乙個子rdd分割槽使用,或多個父rdd對應乙個子rdd,即onetoonedependecies

寬依賴:多個子rdd可以依賴乙個父rdd的分割槽,即onetomanydependecies

注:map操作是乙個窄依賴。join是寬依賴(除非父rdd被hash策略劃分過)

map函式:接收乙個鍵值對(key-value pair),產生中間鍵值對,mapreduce框架將中間鍵值對中key值相同的值傳遞給reduce函式。

map將任務輸出結果儲存在本地磁碟而不是hdfs

大資料學習筆記1

文件分類 通常文件中最常出現的詞都是無意義的常用詞,而關於主題的詞語通常出現的並不多,但又不是所有少見的詞都有用。1.找出跟主題相關的重要詞彙 2.計算tf.idf,度量給定詞語在少數文件中反覆出現程度的形式化指標稱為tf.idf term frequency,inverse document fr...

大資料讀書筆記 1

1.資料分片與路由 抽象模型為兩級對映關係,第一級對映是key partition對映,第二級對映是partition machine對映。資料分片有雜湊分片和範圍分片 雜湊分片只支援點查詢,如cassandra,voltmort,membase 範圍分片支援範圍查詢,google的bigtable...

大資料學習筆記 城市計算 1

線資料 這幅圖展示了北京的路網。其中,紅色的線表示連線北京和其他城市的高速公路,藍色的線表示北京的環路,黑色的線表示北京的主幹道。有了連續幾年的資料,你們可以看到乙個城市的路網是如何擴張的。第二部分大資料報括五個其他資料來源 氣象資料,如颳風 溫度 濕度等 交通流 人的移動性資料 興趣點的資料,如這...