hadoop基礎(from慕課網)

2022-07-22 13:21:10 字數 2115 閱讀 1914

hadoop基礎

1、

hdfs分布式檔案系統:儲存是大資料技術的基礎。

資料塊:

資料塊是抽象而非整個檔案作為儲存單元。

預設大小為64mb,一般設定為

128m

,備份*3

namenode(主

):

管理檔案系統的命名空間,存放檔案元資料。

維護檔案系統的所有檔案和目錄,檔案與資料塊的對映。

記錄每個檔案中各個塊所在資料節點的資訊。

datanode(從

):

儲存並檢索資料塊。

向namenode更新所儲存塊的列表。

hdfs優點:

適合大檔案儲存,支援tb、

pb級的資料儲存,並有副本策略。

可以構建在廉價的及機器上,並有一定的容錯和恢復機制。

支援流式資料訪問,一次寫入,多次讀取最高效。

hdfs缺點:

不適合大量小檔案儲存。

不適合併發寫入,不支援檔案隨機修改。

不支援隨機讀等低延時的訪問方式。

hdfs寫流程

client向

namenode

請求儲存,

namenode

給client

返回datanode

空閒資訊,

client

將資料分塊,之後將資料和

datanode

的某些資訊一起存到

datanode-1

上,由於資料塊要備份,

datanode-1

將資料塊傳送給

datanode-2

和datanode-3

,之後告訴

namenode

已經儲存完資料塊。

客戶端向namenode發起寫資料請求

分塊寫入datanode節點,

datanode

自動完成副本備份

datanode向

namenode

匯報儲存完成,

namenode

通知客戶端

hdfs讀流程:

客戶端向namenode發起讀資料請求

namenode找出距離最近的

datanode

節點資訊傳送給客服端

常用hdfs shell命令

copyfromlocal:從本地拷貝到

hdfs

copytolocal:從

hdfs

拷貝到本地

put:上傳檔案

實操:

./hdfs dfs -help 檢視

hdfs

操作幫助

2、

mapreduce

程式設計模型:

分布式計算是大資料應用的解決方案。

mapreduce是一種程式設計模型,是一種程式設計方法,是抽象的理論。

yarn:排程

mapreduce

操作。resourcemanager:

分配和排程資源

監控nodemanager

為mr型別的程式申請資源,並分配給內部任務

負責資料的切分

監控的任務的執行和容錯

nodemanager

管理單個結點的資源

處理來自resourcemanager的命令

mapreduce程式設計模型

輸入乙個大檔案,通過split之後,將其分為多個分片

每個檔案分片由單獨的機器去處理,這就是map方法

將各個機器計算的結果進行彙總並得到最終的結果,這就是reduce方法

使用mapreduce計算:

總結 慕課網 jQuery基礎

1.初識jquery jquery物件與dom物件是不一樣的。jquery是乙個類陣列物件,顧名思義,其兼具物件和陣列的特性。而dom物件就是乙個單獨的dom元素。它們之間也可互相轉化。利用陣列下標的方式可以讀取到jquery中的dom物件 陣列的索引是從0開始的 通過jquery自帶的get 方法...

Springboot 慕課網筆記

autoweird對應三個 component service entity entity對應資料庫 service對應事務 資料庫的事務等等 有點類似try 中間一行 出問題就會全部出錯 裡面的函式前面要加 transactional 什麼都沒有了用 component aop 切片 登入啊 新建...

node 慕課網學習

簡寫 npm i 安裝 npm un 刪除 path.dirname node a b c 1.jpg 擷取路徑 結果是 node a b c path.basename node a b c 1.jpg 擷取路徑後面的 結果 1.jpg path.extname node a b c 1.jpg ...