hadoop基礎（from慕課網）

hadoop基礎

1、

hdfs分布式檔案系統：儲存是大資料技術的基礎。

資料塊：

資料塊是抽象而非整個檔案作為儲存單元。

預設大小為64mb，一般設定為

128m

，備份*3

。namenode(主

)：

管理檔案系統的命名空間，存放檔案元資料。

維護檔案系統的所有檔案和目錄，檔案與資料塊的對映。

記錄每個檔案中各個塊所在資料節點的資訊。

datanode(從

)：

儲存並檢索資料塊。

向namenode更新所儲存塊的列表。

hdfs優點：

適合大檔案儲存，支援tb、

pb級的資料儲存，並有副本策略。

可以構建在廉價的及機器上，並有一定的容錯和恢復機制。

支援流式資料訪問，一次寫入，多次讀取最高效。

hdfs缺點：

不適合大量小檔案儲存。

不適合併發寫入，不支援檔案隨機修改。

不支援隨機讀等低延時的訪問方式。

hdfs寫流程：

client向

namenode

請求儲存，

namenode

給client

返回datanode

空閒資訊，

client

將資料分塊，之後將資料和

datanode

的某些資訊一起存到

datanode-1

上，由於資料塊要備份，

datanode-1

將資料塊傳送給

datanode-2

和datanode-3

，之後告訴

namenode

已經儲存完資料塊。

客戶端向namenode發起寫資料請求

分塊寫入datanode節點，

datanode

自動完成副本備份

datanode向

namenode

匯報儲存完成，

namenode

通知客戶端

hdfs讀流程：

客戶端向namenode發起讀資料請求

namenode找出距離最近的

datanode

節點資訊傳送給客服端

常用hdfs shell命令

copyfromlocal：從本地拷貝到

hdfs

copytolocal：從

hdfs

拷貝到本地

put：上傳檔案

實操：

./hdfs dfs -help 檢視

hdfs

操作幫助

2、

mapreduce

程式設計模型：

分布式計算是大資料應用的解決方案。

mapreduce是一種程式設計模型，是一種程式設計方法，是抽象的理論。

yarn：排程

mapreduce

操作。resourcemanager：

分配和排程資源

監控nodemanager

為mr型別的程式申請資源，並分配給內部任務

負責資料的切分

監控的任務的執行和容錯

nodemanager

管理單個結點的資源

處理來自resourcemanager的命令

mapreduce程式設計模型

輸入乙個大檔案，通過split之後，將其分為多個分片

每個檔案分片由單獨的機器去處理，這就是map方法

將各個機器計算的結果進行彙總並得到最終的結果，這就是reduce方法

使用mapreduce計算：

總結慕課網 jQuery基礎

1.初識jquery jquery物件與dom物件是不一樣的。jquery是乙個類陣列物件，顧名思義，其兼具物件和陣列的特性。而dom物件就是乙個單獨的dom元素。它們之間也可互相轉化。利用陣列下標的方式可以讀取到jquery中的dom物件陣列的索引是從0開始的通過jquery自帶的get 方法...

Springboot 慕課網筆記

autoweird對應三個 component service entity entity對應資料庫 service對應事務資料庫的事務等等有點類似try 中間一行出問題就會全部出錯裡面的函式前面要加 transactional 什麼都沒有了用 component aop 切片登入啊新建...

node 慕課網學習

簡寫 npm i 安裝 npm un 刪除 path.dirname node a b c 1.jpg 擷取路徑結果是 node a b c path.basename node a b c 1.jpg 擷取路徑後面的結果 1.jpg path.extname node a b c 1.jpg ...

hadoop基礎（from慕課網）

總結 慕課網 jQuery基礎

Springboot 慕課網筆記

node 慕課網學習

相關推薦

總結慕課網 jQuery基礎