我對於大資料的認識

今天來說一說對於大資料這個詞的理解以及初步的認識；

（以下只是本人簡短學習之後的總結，如有錯誤歡迎指出）

我對於大資料的認知是：短時間內快速產生的大量且多種多樣的有價值的資訊；

在以往，資料產生速度慢，節奏慢，而現在呢社會科技發展之快是肉眼可見的，當然也有很多是我們還沒真正地感受到，就已經有開始了更先進的技術發布；對於這一資料量過大的問題，有兩個解決方法：

1：垂直擴充套件：就好比你的電腦要擴大容量是在電腦本身上新增硬碟；

2：橫向擴充套件：是多台伺服器連在一起的擴充套件；（這其中只需要簡單廉價的伺服器或者pc端就可以了）

在此處將提到谷歌的三大**：堪稱大資料的鼻祖

gfs***************==》由此研發出了hdfs分布式檔案系統

mapreduce ==》分布式的處理

bigdata

》hbase

hadoop分布式檔案系統(hdfs)被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統。它和現有的分布式檔案系統有很多共同點。但同時，它和其他的分布式檔案系統的區別也是很明顯的。hdfs是乙個高度容錯性的系統，適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問，非常適合大規模資料集上的應用。

hadoop-------hadoop官網

hdfs

yarn-------資源和任務排程

是一種新的 hadoop 資源管理器，它是乙個通用資源管理系統，可為上層應用提供統一的資源管理和排程，它的引入為集群在利用率、資源統一管理和資料共享等方面帶來了巨大好處。

mapreduce-------批處理

spark----------apache spark是專為大規模資料處理而設計的快速通用的計算引擎。現在形成乙個高速發展應用廣泛的生態系統。

spark core

sparksql----可以使用sql處理

sparkstreaming-----流式處理

mllib—機器學習庫

graphx--------(spark已經停止維護)

主從架構

主節點：namenode

從節點：datanode

client

hdfs的讀取機制：①存檔案

②讀檔案

備份----------》解決安全問題

以block塊的形式將大檔案進行相應的儲存

預設是 128m

在儲存過程中檔案線性切割成塊（block）：偏移量 offset（byte）

block分散儲存在集群節點中

單一檔案block大小一致，檔案與檔案可以不一致

分割出來的block的大小需要統一，如是128m的話就每乙個block都是128m

但是是兩個檔案的話就可以不一樣，乙個可以是128m ，另乙個可以使64m

如：乙個檔案線性分割成了13.1塊但是需要的是14塊

block可以設定副本，副本分散在不同的節點中

副本數不可以超過節點數量：

當你建立副本的時候就是為了備份，但是如果在乙個節點中設定重複的備份是無用的，因為當著乙個節點丟失的時候也就都丟了；

檔案上傳時可以設定block的大小和副本數

已經上傳的檔案的block的副本數可以調整，但是大小不可以改變

只支援一次寫入多次讀取，同乙個時刻只能有乙個寫入者；

》再舉乙個例子

namenode：乙個公司的老闆簡稱nn

datanode：員工簡稱dn

client 相當於秘書

老闆nn掌控全域性管理dn的資訊管理元資料 ==元資料：描述資料的資料

源資料：資料

接收秘書的請求還要讀寫

與員工dn之間進行相應的通訊

dn :負責幹活===>儲存資料

匯報自己的情況

接收秘書的安排

當老闆下達乙個工作指令的時候是下達給秘書，然後秘書分配給員工

這有乙個寫的操作：

--------------------------》

乙個大的檔案需要儲存到伺服器中

大檔案的大小/128m=block塊數

秘書：client將大檔案切塊然後向nn匯報切了多少塊大檔案的大小檔案的許可權檔案的屬主檔案的上傳時間

切好之後 client就去找nn 申請資源 ----dn的資訊

nn會返回一批負載不高的dn 給client

client開始向dn中傳送block 並且做好備份

dn存放block塊之後會向nn匯報情況

如果直接將乙個block塞進管道進行儲存就會形成堵塞效率低

這時，nn會返回給client一些dn的資訊之後client會和這些dn形成乙個管道，並且將block切割成乙個乙個ackpackage（64k）

dn會從管道中拿取相應的資料進行儲存

儲存成功之後dn會向nn匯報

讀請求：

nn會向client傳送請求說要讀哪個資料，client收到請求之後，會向nn申請及誒單的資訊（blockid）

nn就會傳送節點資訊給client

client獲取到節點之後會去dn上拿取資料------採取就近原則

備份機制

兩種情況：

1：集群內提交在提交的節點上放置block

2：集群外提交選擇乙個負載不高的節點進行存放

需注意：放置在與第乙個備份不同的機架上的任意節點上

放置在第二個機架的不同機架上（為了安全）

我對大資料的認識

你好，我是來自蘭州文理學院數字學院資料科學與大資料技術班的一名大學生，你可以叫我小黑。經過這段時間的學習我對大資料有了更好的了解，大資料時代到來最初是麥肯錫資料已經滲透到當今每乙個行業和業務職能領域，成為重要的產生因素。人們對海量資料的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。大...

大資料職業理解對於大資料的認識和理解

精品資料對於大資料的認識和理解這學期選修了網路工程這門課程，當時是抱著掃盲的態度選的這門課程，給自己定的目標不高，只需要對一些基礎的概念和網路結構有些認識就可以，以免以後在人前談論的時候不至於成為 it文盲，被一些專業性的技術人員所嚇倒。事實證明，態度決定一切，由於自己剛開始設定的目標就比較低，...

1 認識大資料

大資料技術的戰略意義不在於掌握龐大的資料量，而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長，也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料，儲存在資料庫中 90 的非結構化資料，它們與人類資訊密切相關資料結構參閱c語言資料結構資料結構是計...

我對於大資料的認識

我對大資料的認識

大資料職業理解 對於大資料的認識和理解

1 認識大資料

相關推薦

大資料職業理解對於大資料的認識和理解