Spark 重要概念及相關知識點

2021-10-09 16:23:45 字數 743 閱讀 1618

看到這裡,恭喜你,結束了分布式儲存模組的內容,願此刻你已經把前面的章節都看透了,但是即便如此也還是不要鬆懈,接下來還有乙個大模組的內容。因為大資料的技術基本都是計算與儲存分離,各司其職,所以我們需要繼續來看分布式計算模組的內容,讓我們大資料面試的知識點更加完善。

第一篇寫的是分布式計算界的中流砥柱,spark。spark 在實現上和 mapreduce 計算框架類似,但是它在記憶體的使用上更「貪婪」,也減少了資料磁碟持久化的頻率,這使它成為了乙個高效的大資料處理引擎。spark 能解決大資料領域很多的問題,萬金油一樣的存在,離線處理、實時流處理、機器學習、互動式查詢等等,所以 spark 相關的內容在大資料面試中也佔據了很大的比例,本專欄也會用比較多的篇幅來詳細梳理 spark 的內容,覆蓋到盡可能多面試題。

本篇面試內容劃重點:shuffle,checkpoint,rdd

為了便於理解,講概念之前我們結合下圖乙個最簡單的 wordcount 的例項來說說 spark 的資料處理流程。首先 spark 從 hdfs 讀 log.txt 檔案,log.txt 儲存在 hdfs 中被分成了三個塊,spark 會起了三個 task 去讀每個 block 的資料,讀到資料後 spark 會按照運算元的邏輯在 task 內對每一條資料做相關操作(如圖的 flatmap 和 map),如果遇到 shuffle 類運算元(如圖的 reducebykey),會把資料打散,然後相同 key 的資料匯聚到同乙個節點做聚合,另外下游 stage 的計算會在上游 stage 所有 task 都完成之後。

Impala概念及架構知識點詳解

impala伺服器是乙個分布式 大規模並行處理 mpp 資料庫引擎。執行在集群每個節點上的守護程序,名稱為impalad。負責讀寫資料檔案 接受查詢請求,將查詢結果返回給中心協調者節點。statestore搜尋集群中impalad程序節點的健康狀態,並不斷將健康狀態的結果 給所有的impalad程序...

網路相關知識點 nginx相關概念

反向 反向 reverse proxy 方式是指以 伺服器來接受internet上的連線請求,然後將請求 給內部網路上的伺服器,並將從伺服器上得到的結果返回給internet 上請求連線的客戶端,此時 伺服器對外就表現為乙個伺服器.負載均衡 負載均衡,英文名稱為load balance,是指建立在現...

JSP重要知識點

場合 頁面本身有中文的時候 解決辦法 servlet resp.setcontenttype text html charset gbk jsp page contenttype text html charset gb2312 注意 一定要寫在printwriter out resp.getwri...