我對於大資料的認識

2021-09-24 08:27:48 字數 2820 閱讀 2686

今天來說一說對於大資料這個詞的理解 以及初步的認識;

(以下只是本人簡短學習之後的總結,如有錯誤歡迎指出)

我對於大資料的認知是:短時間內快速產生的大量且多種多樣的有價值的資訊;

在以往,資料產生速度慢,節奏慢,而現在呢社會科技發展之快是肉眼可見的,當然也有很多是我們還沒真正地感受到,就已經有開始了更先進的技術發布;對於這一資料量過大的問題,有兩個解決方法:

1:垂直擴充套件:就好比你的電腦要擴大容量是在電腦本身上新增硬碟;

2:橫向擴充套件:是多台伺服器連在一起的擴充套件;(這其中只需要簡單廉價的伺服器或者pc端就可以了)

在此處將提到谷歌的三大**:堪稱大資料的鼻祖

gfs***************==》由此研發出了hdfs分布式檔案系統

mapreduce ==》分布式的處理

bigdata

》hbase

hadoop分布式檔案系統(hdfs)被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統。它和現有的分布式檔案系統有很多共同點。但同時,它和其他的分布式檔案系統的區別也是很明顯的。hdfs是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。

hadoop-------hadoop官網

hdfs

yarn-------資源和任務排程

是一種新的 hadoop 資源管理器,它是乙個通用資源管理系統,可為上層應用提供統一的資源管理和排程,它的引入為集群在利用率、資源統一管理和資料共享等方面帶來了巨大好處。

mapreduce-------批處理

spark----------apache spark是專為大規模資料處理而設計的快速通用的計算引擎。現在形成乙個高速發展應用廣泛的生態系統。

spark core

sparksql----可以使用sql處理

sparkstreaming-----流式處理

mllib—機器學習庫

graphx--------(spark已經停止維護)

主從架構

主節點:namenode

從節點:datanode

client

hdfs的讀取機制:①存檔案

②讀檔案

備份----------》解決安全問題

以block塊的形式將大檔案進行相應的儲存

預設是 128m

在儲存過程中檔案線性切割成塊(block):偏移量 offset(byte)

block分散儲存在集群節點中

單一檔案block大小一致 ,檔案與檔案可以不一致

分割出來的block的大小需要統一,如是128m的話就每乙個block都是128m

但是是兩個檔案的話就可以不一樣,乙個可以是128m ,另乙個可以使64m

如:乙個檔案線性分割成了13.1塊 但是需要的是14塊

block可以設定副本,副本分散在不同的節點中

副本數不可以超過節點數量:

當你建立副本的時候就是為了備份 ,但是如果在乙個節點中設定重複的備份是無用的,因為當著乙個節點丟失的時候也就都丟了;

檔案上傳時可以設定block的大小和副本數

已經上傳的檔案的block的副本數可以調整,但是大小不可以改變

只支援一次寫入多次讀取,同乙個時刻只能有乙個寫入者;

》再舉乙個例子

namenode:乙個公司的老闆簡稱nn

datanode:員工 簡稱dn

client 相當於秘書

老闆nn掌控全域性 管理dn的資訊 管理元資料 ==元資料:描述資料的資料

源資料:資料

接收秘書的請求 還要讀寫

與員工dn之間進行相應的通訊

dn :負責幹活===>儲存資料

匯報自己的情況

接收秘書的安排

當老闆下達乙個工作指令的時候 是下達給秘書,然後秘書分配給員工

這有乙個的操作:

--------------------------》

乙個大的檔案需要儲存到伺服器中

大檔案的大小/128m=block塊數

秘書:client將大檔案切塊 然後向nn匯報切了多少塊 大檔案的大小 檔案的許可權 檔案的屬主 檔案的上傳時間

切好之後 client就去找nn 申請資源 ----dn的資訊

nn會返回一批負載不高的dn 給client

client開始向dn中傳送block 並且做好備份

dn存放block塊之後會向nn匯報情況

如果直接將乙個block塞進管道進行儲存 就會形成堵塞 效率低

這時,nn會返回給client一些dn的資訊 之後client會和這些dn形成乙個管道,並且將block切割成乙個乙個ackpackage(64k)

dn會從管道中拿取相應的資料進行儲存

儲存成功之後dn會向nn匯報

讀請求:

nn會向client傳送請求說要讀哪個資料,client收到請求之後,會向nn申請及誒單的資訊(blockid)

nn就會傳送節點資訊給client

client獲取到節點之後會去dn上拿取資料------採取就近原則

備份機制

兩種情況:

1:集群內提交 在提交的節點上放置block

2:集群外提交 選擇乙個負載不高的節點進行存放

需注意:放置在與第乙個備份不同的機架上的任意節點上

放置在第二個機架的不同機架上(為了安全)

我對大資料的認識

你好,我是來自蘭州文理學院數字 學院資料科學與大資料技術班的一名大學生,你可以叫我小黑。經過這段時間的學習我對大資料有了更好的了解,大資料時代到來最初是麥肯錫 資料已經滲透到當今每乙個行業和業務職能領域,成為重要的產生因素。人們對海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。大...

大資料職業理解 對於大資料的認識和理解

精品資料 對於大資料的認識和理解 這學期選修了網路工程這門課程,當時是抱著掃盲的態度選的這門課程,給自己定的目標不高,只需要對一些基礎的概念和網路結構有些認識就可以,以免以後在人前談論的時候不至於成為 it文盲,被一些專業性的技術人員所嚇倒。事實證明,態度決定一切,由於自己剛開始設定的目標就比較低,...

1 認識大資料

大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...