大資料需要學什麼

2021-08-20 14:16:49 字數 2231 閱讀 6186

一般處理t+1資料,這裡的t可以代表一天,一周、乙個月以及一年等。這裡我用的hadoop的版本是hadoop 2.x,它有四個模組(common、hdfs、mapreduce、yarn)。

下面是hadoop的四個模組的詳細介紹

模組介紹

hadoop common

支援其他模組的工具模組

hadoop distributed file system (hdfs)

分布式檔案系統,提供了對應用程式資料的高吞吐量訪問。

程序:    namenode                        名稱節點                          nn

datanode                          

資料節點                          dn

secondarynamenode   

輔助名稱節點                      2ndnn

hadoop yarn

作業排程與集群資源管理的框架。

程序    resourcemanager  資源管理—rm

nodemanager    

節點管理器—nm

hadoop mapreduce

基於yarn系統的對大資料集進行並行處理技術

hive:大資料資料倉儲,通過寫sql對資料進行操作,類似於mysql資料庫中的sql。

hbase:基於hdfs的nosql(not only sql)資料庫,面向列的儲存

下面是hive與hbase的比較

hive

hbase

1、可以理解為一種sql執行引擎,對sql的支援最終轉換為map/reduce任務

2、不支援更新、刪除操作,但可以插入

3、任務不是實時執行,用時一般為數分鐘到數小時

4、本身可以不儲存資料,只儲存關於資料的元資料,偏重於邏輯結構,是一種資料倉儲

5、適合於靜態大資料量的查詢、分析、彙總,不適合聯機實時資料處理

6、操作一般以全表資料為基礎,但也有分割槽等概念

1、不支援sql

2、支援增刪改查操作

3、任務實時執行

4、本身儲存資料,有複雜的物理儲存結構,是一種真正的資料庫

5、適合聯機實時資料處理

6、操作以列為基礎

總結:

hive

和hbase

都是以hadoop

為基礎構建;

hive

是建立在

hadoop

之上為了減少

mapreduce jobs

編寫工作的批處理系統,是用

sql替**

mr的程式設計框架,而

hbase

是為了支援彌補

hadoop

對實時操作的缺陷的專案。

hive

是一種能執行

mapreduce

作業的類

sql程式設計介面,而

hbase

是一種非關係型的資料庫結構。

協作框架:

sqoop(橋梁:hdfs 《==》rdbms)實現資料庫的互導,也就是分布式檔案系統與關聯式資料庫之間的互導。

flume:收集日誌檔案中資訊,一般是收集tomcat的日誌資訊。(現在大多數企業都在使用tomcat)。

下面介紹的是一些大資料中常用的一些框架:

排程框架anzkaban,了解:crontab(linux自帶)、zeus(alibaba)、oozie(cloudera)。

擴充套件前沿框架:kylin、impala(偏向於實時)、elasticsearch(es)。  

框架名稱

模擬解釋

以spark框架為主

scala

scala:oop + fp

oop(object oriented programming)

sparkcore

模擬mapreduce

sparksql

模擬hive

sparkstreaming

實時資料處理

kafka

訊息佇列

前沿框架擴充套件:flink 

阿里巴巴 blink

spark mllib:機器學習庫

python資料分析

python機器學習

學大資料需要學哪些內容?大資料主流技術棧簡介

被廣泛關注的大資料,這幾年在國內的發展,可以說是進入了比較平穩的乙個時期,基本上企業對於技術開發人員的要求,都開始與大資料接軌。那麼學大資料需要學哪些內容,今天我們從大資料主流技術棧開始,為大家做個簡單介紹。大資料發展速度很快,對技術的需求也在不斷更新迭代,從第一代的hadoop為王,到現在的had...

大資料開發技術該怎麼學 都需要掌握什麼技能

大資料開發技術該怎麼學?都需要掌握什麼技能?談起大資料,相信很多人都不陌生了吧 無論你是感嘆大資料的恐怖還是感嘆大資料的神奇,總之,它已經成為我們生活中重要的技術支撐,也是未來網際網路技術發展的重要方向。技術很重要,人才自然是不可或缺的,想要成為的大資料技術人才,就必須要經歷學習技術的枯燥乏味的過程...

大資料專業學什麼,應該學習什麼語言

大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。目前,大資料算是非常火的專業,下面我將和大家談談大資料專業學什麼?大資料專業分為兩種,其一是大資料開發,其二...