大資料框架初探

2021-08-29 01:46:30 字數 2070 閱讀 2813

mapreduce程式設計模型

yarn

hadoop生態圈

參考所謂大資料,就是如下幾個特點的資料,ibm用5個v來表述它:volume、velocity、variety、value、veracity。

volume: 巨大的資料量 ,集中儲存/集中計算已經無法處理巨大的資料量。

velocity:資料增長速度快,使用者基數龐大/裝置數量眾多/實時海量/資料指數級別增長。

variety:非結構化資料多樣性。

value:資料的價值密度低。

vercity:資料的真實性。

hadoop是開源的大資料框架,分布式計算的解決方案。hadoop的框架最核心的設計就是:hdfs和mapreduce。hdfs為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算。可以說 hadoop= hdfs + mapreduce 。

hdfs(hadoop distributed file system)是hadoop專案的核心子專案,分布式計算中資料儲存管理的基礎,是基於流資料模式訪問和處理超大檔案的需求而開發的,可以執行於廉價的商用伺服器上。hdfs的架構如圖。

hdfs由三個「元件」構成:block,namenode,datanode。

block(資料塊)是抽象快而非整個檔案作為儲存單元。預設為64m,一般設定為128m,備份為3份。

namenode用於管理檔案系統的命名空間,存放檔案元資料,維護檔案系統的所有檔案科目了,檔案和資料塊的對映;記錄每個檔案中各塊資料節點資訊。

datanode儲存並檢索資料塊;向namenode更新儲存快列表。

hdfs的優點

hdfs的優點

tips對於小檔案問題,hadoop本身也提供了hadoop archive,sequence file和combinefileinputformat

hdfs的的寫入過程

客戶端向namenode發起寫資料請求;

分塊寫入datanode節點,datanode自動完成副本備份;

datanode向namenode匯報儲存完成,namenode通知客戶端完成。

hdfs的讀取過程

客戶端向namenode請求;

namenode找出距離最近的datanode節點資訊;

輸入乙個大檔案通過split之後,將其分為多個分片;

map方法把每個分片由單獨的機器去處理;

reduce將每個機器計算的結果進行彙總並得到最終的結果。

yarn是是hadoop的資源管理器。由於hadoop1.0只支援mapreduce任務、資源利用率低。hadoop2.0中加入yarn使得hadoop中的程式設計模型有了除mapreduce外的更多選擇,並且多種應用程式如mapreduce、spark可以使用同乙個資料集。

resourcemanager

分配和排程資源;

監控nodemanager。

為mr型別的程式申請資源,並分配給內部任務;

負責資料的切分;

監控任務的執行以及容錯。

hbase的三個關鍵屬性

rowkey:資料唯一標識,按字典排序;

column family:列族,最多不超過三個;

timestamp:時間戳,支援多版本資料同時存在。

spark.

....

.桃花仙人種桃樹,又摘桃花換酒錢_

什麼是大資料?大資料初探索!

官方定義 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。我的理解 大資料的特徵?容量 volume 資料的大小決定所考慮的資料的價值和潛在...

大資料初探 Hadoop歷史

hadoop是乙個開源的分布式框架,是apache下的乙個開源專案。hadoop執行可以在成千上萬個普通機器節點組成的集群上,通過分布式的計算模型和儲存模型來處理大資料集。hadoop具有高容錯性 工作在普通的機器節點上擴充套件性強等眾多的優點,是企業選擇處理大資料集工具的不二 人 選。這個框架是另...

大資料初探 Hadoop歷史

hadoop是乙個開源的分布式框架,是apache下的乙個開源專案。hadoop執行可以在成千上萬個普通機器節點組成的集群上,通過分布式的計算模型和儲存模型來處理大資料集。hadoop具有高容錯性 工作在普通的機器節點上擴充套件性強等眾多的優點,是企業選擇處理大資料集工具的不二 人 選。這個框架是另...