大資料以及hadoop的入門介紹

2021-08-26 12:41:43 字數 812 閱讀 8971

為什麼大資料這幾年才發展起來?

隨著網際網路技術的深入發展,產生了越來越多的資料。比如:

1、電商**,產生了大量的使用者瀏覽,購物行為

2、移動運營商記錄了大量的使用者上網行為

3、金融系統的分析

。。。。

以上的這些需求,用以前傳統的技術無法勝任,需要有乙個全新的技術體系來支撐。在此背景下就產生了一系列針對海量資料進行處理的技術。

大資料的技術基本上都要解決兩個核心需求:資料儲存和資料運算

資料儲存:分布式儲存,將資料(檔案)分散到乙個集群上的n多台機器上儲存

資料運算:分布式運算系統

分布式儲存和分布式運算,都由框架來提供,hadoop就是其中的一種框架。

hadoop能提供分布式儲存和運算的功能:

1、hadoop中有個元件:hdfs-分布式儲存

2、hadoop中有個元件:mapreduce-分布式運算

3、hadoop中有個元件:yarn-為mapreduce提供硬體資源排程

但是hadoop的核心元件極為底層,如果直接基於這個底層框架來開發我們的資料分析邏輯,比較繁瑣,開發效率低。

所以,在hadoop這個底層框架之上,衍生了大量的快捷開發工具:

例如:

hive:可以讓使用者只要寫sql來表達資料處理邏輯需求即可。

hbase:(分布式列存資料庫) 是乙個針對結構化資料的可伸縮、高可靠、高效能、分布式和面向列的動態模式資料庫。

zookeeper:(分布式協作服務) 解決分布式環境下的資料管理問題:統一命名,狀態同步,集群管理,配置同步等。

等等。。。

大資料以及大資料技術都包括哪些內容

大資料技術主要圍繞 資料價值化 這個核心來展開,涉及到資料採集 資料整理 資料儲存 資料安全 資料分析 資料呈現和資料應用等技術。資料採集技術涉及到物聯網技術,實際上物聯網也是大資料主要的資料 所以大資料與物聯網的關係也非常密切,也可以說沒有物聯網的發展就不會有大資料。如果你想要學好大資料最好加入乙...

大資料入門Hadoop安裝

偽分布式 就是所有的程式都在一台主機上跑,完全是分布式的工作模式,但是不是真正的分布式 先上傳hadoop的安裝包到伺服器上去 home hadoop 注意 hadoop2.x的配置檔案 hadoop home etc hadoop 偽分布式需要修改5個配置檔案 3.1配置hadoop hdfs w...

大資料框架hadoop安裝以及簡介

hadoop實現了乙個分布式檔案系統 重點 hadoop distributed file system 簡稱hdfs。hdfs有高容錯性的特點,並且設計用來部署在低廉的 low cost 硬體上 而且它提供高吞吐量 high throughput 來訪問應用程式的資料,適合那些有著超大資料集 la...