大資料框架初探

mapreduce程式設計模型

yarn

hadoop生態圈

參考所謂大資料，就是如下幾個特點的資料，ibm用5個v來表述它：volume、velocity、variety、value、veracity。

volume：巨大的資料量，集中儲存/集中計算已經無法處理巨大的資料量。

velocity：資料增長速度快，使用者基數龐大/裝置數量眾多/實時海量/資料指數級別增長。

variety：非結構化資料多樣性。

value：資料的價值密度低。

vercity：資料的真實性。

hadoop是開源的大資料框架，分布式計算的解決方案。hadoop的框架最核心的設計就是：hdfs和mapreduce。hdfs為海量的資料提供了儲存，則mapreduce為海量的資料提供了計算。可以說 hadoop= hdfs + mapreduce 。

hdfs（hadoop distributed file system）是hadoop專案的核心子專案，分布式計算中資料儲存管理的基礎，是基於流資料模式訪問和處理超大檔案的需求而開發的，可以執行於廉價的商用伺服器上。hdfs的架構如圖。

hdfs由三個「元件」構成：block，namenode，datanode。

block（資料塊）是抽象快而非整個檔案作為儲存單元。預設為64m，一般設定為128m，備份為3份。

namenode用於管理檔案系統的命名空間，存放檔案元資料，維護檔案系統的所有檔案科目了，檔案和資料塊的對映；記錄每個檔案中各塊資料節點資訊。

datanode儲存並檢索資料塊；向namenode更新儲存快列表。

hdfs的優點

tips對於小檔案問題，hadoop本身也提供了hadoop archive，sequence file和combinefileinputformat

hdfs的的寫入過程

客戶端向namenode發起寫資料請求；

分塊寫入datanode節點，datanode自動完成副本備份；

datanode向namenode匯報儲存完成，namenode通知客戶端完成。

hdfs的讀取過程

客戶端向namenode請求；

namenode找出距離最近的datanode節點資訊；

輸入乙個大檔案通過split之後，將其分為多個分片；

map方法把每個分片由單獨的機器去處理；

reduce將每個機器計算的結果進行彙總並得到最終的結果。

yarn是是hadoop的資源管理器。由於hadoop1.0只支援mapreduce任務、資源利用率低。hadoop2.0中加入yarn使得hadoop中的程式設計模型有了除mapreduce外的更多選擇，並且多種應用程式如mapreduce、spark可以使用同乙個資料集。

resourcemanager

分配和排程資源；

監控nodemanager。

為mr型別的程式申請資源，並分配給內部任務；

負責資料的切分；

監控任務的執行以及容錯。

hbase的三個關鍵屬性

rowkey：資料唯一標識，按字典排序；

column family：列族，最多不超過三個；

timestamp：時間戳，支援多版本資料同時存在。

spark.

....

.桃花仙人種桃樹，又摘桃花換酒錢_

大資料框架初探

什麼是大資料？大資料初探索！

大資料初探 Hadoop歷史

大資料初探 Hadoop歷史

大資料框架初探

什麼是大資料？大資料初探索！

大資料初探 Hadoop歷史

大資料初探 Hadoop歷史

相關推薦