學大資料需要學哪些內容?大資料主流技術棧簡介

2021-10-10 05:17:31 字數 1533 閱讀 3426

被廣泛關注的大資料,這幾年在國內的發展,可以說是進入了比較平穩的乙個時期,基本上企業對於技術開發人員的要求,都開始與大資料接軌。那麼學大資料需要學哪些內容,今天我們從大資料主流技術棧開始,為大家做個簡單介紹。

大資料發展速度很快,對技術的需求也在不斷更新迭代,從第一代的hadoop為王,到現在的hadoop、spark、storm、flink百花齊放,一方面是因為需求的變化,另一方面也是技術生態在不斷拓展和完善。

學大資料需要學哪些內容?從就業的角度來考量,那麼自然是市場要求什麼,就學什麼。市場主流的大資料技術棧包括——

主要由關係型和非關係型資料收集元件,分布式訊息佇列構成。

sqoop/canal:關係型資料收集和匯入工具。

flume:非關係型資料收集工具,主要是流式日誌資料。

kafka:分布式訊息佇列,一般作為資料匯流排使用。

主要由分布式檔案系統(面向檔案儲存)和分布式資料庫(面向行/列的儲存)構成。

hdfs:hadoop分布式檔案系統。

hbase:構建在hdfs之上的分布式資料庫。

kudu:介於hdfs和hbase之間的基於列式儲存的分布式資料庫。

yarn:統一資源管理與排程系統,管理集群中的各種資源。

zookeeper:基於簡化的paxos協議實現的服務協調系統。

mesos:類似於yarn,也是乙個分布式資源管理平台。

主要包括批處理(時間要求低,高吞吐)、互動式處理(時間要求比較高,sql查詢)、流式實時處理(時間要求非常高)三種引擎。

mapreduce:經典的批處理計算引擎,具體良好的擴充套件性與容錯性。

spark:通用的dag計算引擎,允許使用者充分利用記憶體進行快速的資料探勘和分析。

impala/presto:開源的mpp系統,允許使用者使用標準的sql處理儲存在hadoop中的資料。

storm/spark streaming:分布式流式實時計算引擎,能夠高效的處理流式資料。

flink:分布式的大資料處理引擎,可以對有限資料流和無線資料流進行有狀態的計算。

主要為方便使用者解決大資料問題而提供的各種資料分析工具。

hive/pig/sparksql:在計算引擎之上構建的支撐sql或者指令碼語言的分析系統,大大降低了使用者進行大資料分析的門檻。

mahout/mlib:在計算引擎上構建的機器學習庫,實現常用的機器學習和資料探勘演算法。

apache beam/cascading:基於各類計算框架而封裝的高階api,方便構建複雜的流水線。

關於學大資料需要學哪些內容,大資料主流技術棧,以上就為大家做了乙個簡單的介紹了。大資料在快速發展當中,主流技術棧也在不斷更新迭代,作為技術開發人員,也需要保持學習能力,隨時跟上技術趨勢。

大資料需要學什麼

一般處理t 1資料,這裡的t可以代表一天,一周 乙個月以及一年等。這裡我用的hadoop的版本是hadoop 2.x,它有四個模組 common hdfs mapreduce yarn 下面是hadoop的四個模組的詳細介紹 模組介紹 hadoop common 支援其他模組的工具模組 hadoop...

學大資料要學哪些演算法 大資料分析都有哪些常見的演算法

隨著網際網路的不斷發展,大資料分析演算法讓眾多企業在使用者分析上獲得了很大的突破。今天,我們就一起來了解一下,資料分析領域常見的演算法都有哪些。1.線性回歸 線性回歸可能是統計學和機器學習中知名和易理解的演算法之一。由於 建模主要關注小化模型的誤差,或者以可解釋性為代價來做出準確的 我們會從許多不同...

學大資料要學哪些演算法 大資料學習之八大演算法詳解

在大資料行業,懂演算法的大資料工程師是非常有核心競爭力的,之前科多大資料的一位培訓學員面試之後,回來和我們分享,懂得演算法在面試過程中是非常加分的,即便演算法的底層邏輯不是很了解,但一定要懂得具體應用,本文詳解了資料分析中經典的幾大演算法,輔助大家更好的學習。演算法一 快速排序法 快速排序是由東尼 ...