概述 Hadoop Yarn Spark基本

2021-07-30 22:18:22 字數 868 閱讀 4183

網上說得紛飛複雜的,其實要想簡單用起來,hadoop、yarn、spark的基本構架都很簡單,如下圖所示,都是乙個總分的結構:

最初大資料的發明,就是為了解決一台機子做不了事情的問題。比如你一台機子硬碟大概2tb大小,但是我乙個資料檔案就有10tb大……那確實沒辦法。有人說,不是可以像資料庫那樣分開不同的庫儲存嗎?但隨著資訊時代的發展,還真就有單個檔案這麼大的東西了。那只能把幾個機子合併起來,虛擬出乙個超大硬碟的機子,這就是分布式儲存系統dfs(distribution file system)。

其實dfs並不罕見,大資料等一系列軟體發明之前,我們不是有raid系統嗎?網上買硬碟,2個硬碟可以組個raid 0,多個硬碟還可以組raid 3、raid 5等等。這些raid功能不但增大了儲存空間,還包含冗餘計算,即使1臺硬碟壞了,另幾台還能恢復出原來的資料。dfs亦是如此。組raid總需要有個東西對不同硬碟進行協調,同樣,dfs裡也得有東西對大家進行協調,這放在hadoop上就是namenode。

由於hdfs系統是通過網路組起來的,因此協調也是通過伺服器——客戶端的形式來進行的。伺服器就是namenode,客戶端就是datanode,這麼理解就簡單易懂了。當儲存東西的時候,我們總是通過乙個hdfs://hdfsmain:9000的位址來對hdfs進行訪問,這就是傳送訪問到namenode。無論是上傳、查詢、刪除、修改等任務,都是通過傳送命令到namenode,然後再通過namenode將相應指令傳送到各個datanode進行執行的。

所以無論是hdfs、yarn還是spark,它們都是類似這樣的模式,提交乙個任務到主節點,然後主節點再分配任務給分節點執行。那麼hdfs、yarn、spark它們之間的區別又在**呢?

hdfs:拿來儲存東西的

yarn:拿來分配任務的

spark:拿來做分布式計算的

InnoDB儲存引擎概述 概述

重新整理記憶體池資料,保證記憶體快取的是最新的資料,將已修改的資料檔案重新整理到磁碟中,資料庫發生異常時innodb能恢復至正常執行狀態.負責將緩衝池中的資料非同步重新整理到磁碟,保證資料的一致性,包括髒頁的重新整理,合併插入緩衝,undo頁的 async io處理io請求,四種thread wri...

Set集合概述與hashset概述

不包含重複元素 唯一 無序 訪問順序不一致它不保證set的迭代順序,特別是它保證該順序恆久不變 底層資料結構是雜湊表 注意 雖然set集合的元素無序,但是,作為集合來說,它肯定有它自己的儲存順序,而你的順序恰好和它的儲存順序一致,這代表不了有序,你可以多儲存一些資料,就能看到效果。public cl...

一 藍芽概述 1 0 總體概述

藍芽無線技術是一種短距離無線通訊系統,目的是取消連線在主電子裝置與外設之間的電線。作為乙個重度強迫症病患者,想想家裡的電腦各裝置之間不用電線連著,會感覺多麼的舒暢 藍芽無線技術的主要特點是 健壯性 抗干擾 低功耗 低成本。核心規範中的一些技術是可選的,意思是,各個產商實現的藍芽晶元所支援的功能可能會...