寒假自學進度1

2022-07-18 21:24:16 字數 1703 閱讀 8584

今天主要學習了對spark的初步認識以及相應名詞的理解

包括spark特點、scala特性、bdas架構、spark元件的應用場景、spark基本概念、spark執行架構、spark架構設計的優點 、spark各種概念之間的相互關係

hadoop 是基於磁碟的大資料計算框架  spark是基於記憶體計算的大資料平行計算框架

spark特點

scala特性

bdas架構

mapreduce 軟體適用於做複雜的批量資料處理(數十分鐘到數小時)

cloudera impala 軟體(類似於hive)基於歷史資料的互動式查詢(數十秒到數分鐘)

storm 軟體基於實時資料流的資料處理( 數百毫秒到數秒)

spark可以同時滿足企業各種應用需求(同時支援批處理 互動式查詢 和流資料處理 )

希望這種架構可以滿足企業不同型別的需求

最底層(mesos hadoop yarn )是資源的虛擬化層

spark基於記憶體計算功能依靠spark core實現

spark sql提供互動式查詢分析

spark streaming 提供了流計算功能

mllib 提供機器學習演算法庫的元件

graphx提供圖計算

spark元件的應用場景

spark基本概念

rdd  (彈性分布式資料集)(分布式 記憶體的抽象概念 提供了一種高度受限的共享記憶體模型)

dag(有向無環圖)

executor 執行具體task的乙個節點

spark執行架構

cluster manager 集群資源管理器

worker node執行作業任務的工作節點

driver 每個應用的任務控制節點

executor 每個工作節點上負責具體任務的的執行程序

spark架構設計的優點

1.利用多執行緒來執行具體的任務 減少任務的啟動開銷

2.executor 中有乙個blockmanager儲存模組 會將記憶體和磁碟共同作為儲存裝置 有效減少磁碟io開銷(優先寫到記憶體)

spark各種概念之間的相互關係

寒假自學進度11

2,資料清洗 對熱詞資訊進行資料清洗,並採用自動分類技術生成自動分類計數生成資訊領域熱詞目錄。5,資料視覺化展示 用字元雲或熱詞圖進行視覺化展示 用關係圖標識熱詞之間的緊密程度。6,資料報告 可將所有熱詞目錄和名詞解釋生成 word 版報告形式匯出。再運用xpath獲取相應的位置的解釋,輸出即可。需...

寒假自學進度4

今天主要學習了spark執行基本流程rdd概念rdd 中的依賴關係spark劃分rdd 在 spark 架構中的執行過程 以及完成實驗一linux系統常用命令 spark執行基本流程 sparkcontext 會向資源管理器註冊並申 請執行 executor 的資源 2 資源管理器為 executo...

寒假自學進度十一

hadoop和apache spark究竟有什麼異同。首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器...