五 大資料技術之Hadoop(1)

2021-08-15 22:21:36 字數 882 閱讀 1649

大資料概念

巨量資料集合,指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合

4v 特性:volume(大量)、velocity(高速)、variety(多樣)、value(低價值密度)

網上對於大資料概念的敘述有很多,這裡不多做敘述

大資料要解決的核心問題

大量的資料如何儲存(分布式檔案系統hdfs)

大量的資料如何計算(分布式計算mapreduce)

舉例:商品推薦:大量的訂單如何儲存?大量的訂單如何計算? 天氣預報資料:大量的天氣資料如何儲存?大量的天氣資料如何計算

hadoop在巨集觀上可以看作是一種資料倉儲的實現方式,所有黑色部分是傳統資料倉儲實現方式,紅色部分是大資料資料倉儲實現方式,大資料處理資料方式與傳統資料大致相同,分為資料的採集(大資料一般是用sqoop,flume元件),資料的分析與處理(大資料使用mapreduce,spark core,  傳統資料使用sql語句),資料的輸出

hdfs: 大資料的儲存,分布式檔案系統

hbase: 大資料中nosql資料庫,基於bigtable的實現

mapreduce(yarn): 分布式計算,yarn表示大資料資源排程工具

hue: 大資料中基於web的管理工具,提供使用者web介面管理

hive, pig: 大資料資料分析引擎

sqoop, flume: 資料採集工具(flume一般用於採集日誌)

zookeeper: 大資料管理工具,實現高可用,負載均衡

五大資料儲存模型

今天和同事聊起列式儲存clickhouse資料庫,資料庫的選擇原來這麼多。就是傳統的資料庫,如mysql,oracle,postgresql。相比較與列式儲存,最明顯的特點就是把一行中的資料值串在一起儲存起來,然後再儲存下一行的資料。列式儲存是相對於傳統的行式儲存來說的,最大區別就是資料時是按照列來...

九 大資料技術之hadoop 5

hdfs的體系結構 namenode hdfs的主要管理者 接受客戶端的請求,比如說,將本地檔案上傳到hdfs上 維護檔案的元資訊 fsimage檔案 和操作日誌 edit檔案 檔案的元資訊 fsimage檔案 乙個檔案上傳到hdfs上,檔案會被切成乙份份的資料塊,記錄這些資料塊的檔案就是檔案的元資...

大資料五大技術或將改變儲存發展

資料儲存領域正在發生著劇烈的變化,而且這種變化將是長期的一種趨勢。而隨著資料儲存領域的變化,必然將催生中一些新的技術的產生,必將改變儲存領域的發展,那麼今天我們就來看一下未來有哪些儲存技術會改變未來呢?資料儲存領域正在發生著劇烈的變化,而且這種變化將是長期的一種趨勢。而隨著資料儲存領域的變化,必然將...