學大資料需要學哪些內容？大資料主流技術棧簡介

被廣泛關注的大資料，這幾年在國內的發展，可以說是進入了比較平穩的乙個時期，基本上企業對於技術開發人員的要求，都開始與大資料接軌。那麼學大資料需要學哪些內容，今天我們從大資料主流技術棧開始，為大家做個簡單介紹。

大資料發展速度很快，對技術的需求也在不斷更新迭代，從第一代的hadoop為王，到現在的hadoop、spark、storm、flink百花齊放，一方面是因為需求的變化，另一方面也是技術生態在不斷拓展和完善。

學大資料需要學哪些內容？從就業的角度來考量，那麼自然是市場要求什麼，就學什麼。市場主流的大資料技術棧包括——

主要由關係型和非關係型資料收集元件，分布式訊息佇列構成。

sqoop/canal：關係型資料收集和匯入工具。

flume：非關係型資料收集工具，主要是流式日誌資料。

kafka：分布式訊息佇列，一般作為資料匯流排使用。

主要由分布式檔案系統（面向檔案儲存）和分布式資料庫（面向行/列的儲存）構成。

hdfs：hadoop分布式檔案系統。

hbase：構建在hdfs之上的分布式資料庫。

kudu：介於hdfs和hbase之間的基於列式儲存的分布式資料庫。

yarn：統一資源管理與排程系統，管理集群中的各種資源。

zookeeper：基於簡化的paxos協議實現的服務協調系統。

mesos：類似於yarn，也是乙個分布式資源管理平台。

主要包括批處理（時間要求低，高吞吐）、互動式處理（時間要求比較高，sql查詢）、流式實時處理（時間要求非常高）三種引擎。

mapreduce：經典的批處理計算引擎，具體良好的擴充套件性與容錯性。

spark：通用的dag計算引擎，允許使用者充分利用記憶體進行快速的資料探勘和分析。

impala/presto：開源的mpp系統，允許使用者使用標準的sql處理儲存在hadoop中的資料。

storm/spark streaming：分布式流式實時計算引擎，能夠高效的處理流式資料。

flink：分布式的大資料處理引擎，可以對有限資料流和無線資料流進行有狀態的計算。

主要為方便使用者解決大資料問題而提供的各種資料分析工具。

hive/pig/sparksql：在計算引擎之上構建的支撐sql或者指令碼語言的分析系統，大大降低了使用者進行大資料分析的門檻。

mahout/mlib：在計算引擎上構建的機器學習庫，實現常用的機器學習和資料探勘演算法。

apache beam/cascading：基於各類計算框架而封裝的高階api，方便構建複雜的流水線。

關於學大資料需要學哪些內容，大資料主流技術棧，以上就為大家做了乙個簡單的介紹了。大資料在快速發展當中，主流技術棧也在不斷更新迭代，作為技術開發人員，也需要保持學習能力，隨時跟上技術趨勢。