大資料技術之Hadoop解析

2021-12-30 10:25:21 字數 714 閱讀 7872

大資料技術之hadoop解析。

1、資料現狀

2023年數字世界(digital universe)專案統計得出全球資料總量為0.18zb,2023年將達到1.8zb

(1zb = 1 000eb = 1 000 000pb = 1 000 000 000tb)資料增長速度也在加快。

2、資料的儲存

資料讀取速度慢:在硬碟容量不斷提公升的同時,資料的讀取速度卻沒有與時俱進,目前資料的讀取速度也僅為100mb/s。

解決辦法:可以把資料存放在多個硬碟中,每個硬碟儲存1% 的資料,讀取資料時,100個job同時執行,時間消耗就大大的縮短。

hadoop採取了並行讀取資料的方法來減少時間,單同時也要解決並行讀寫產生的問題:

1)、硬體故障,hdfs(hadoop distributed file system)要求檔案儲存時一式三份,分別儲存在不同的硬體裝置,當其中乙個硬體發生故障時,會從其他副本中獲取資料。

2)、做資料分析時,很多資料都是相互依賴使用的。hadoop開發出了mapreduce程式設計模式,該模型抽象出這些硬碟上讀取檔案的內容並將其轉化為乙個資料集(由鍵值對組成)的計算。

hadoop提供了可靠的共享儲存和分析系統,hdfs實現資料儲存,mapreduce實現資料的分析和處理。這兩個是hadoop的核心功能。

產生mapreduce的原因是因為硬碟發展的乙個趨勢造成:

1)、傳輸效率的提公升效果遠大於減少定址時間產生的效果

Hadoop技術 大資料概論

三 大資料應用場景 四 業務流程分析 大資料就是巨量的資料。大資料的計量單位已經超過tb級別發展到pb eb zb yb甚至bb級別。大資料是指在一定時間內無法使用傳統資料庫軟體工具採集 儲存 管理和分析其內容的資料集合。大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對於這些含有意義的資料進行...

九 大資料技術之hadoop 5

hdfs的體系結構 namenode hdfs的主要管理者 接受客戶端的請求,比如說,將本地檔案上傳到hdfs上 維護檔案的元資訊 fsimage檔案 和操作日誌 edit檔案 檔案的元資訊 fsimage檔案 乙個檔案上傳到hdfs上,檔案會被切成乙份份的資料塊,記錄這些資料塊的檔案就是檔案的元資...

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...