學習大資料開發應該了解的幾個小知識

1、linux

大資料集群主要建立在linux作業系統上，linux是一套免費使用和自由傳播的類unix作業系統。而這部分的內容是大家在學習大資料中必須要學習的，只有學好linux才能在工作中更加的得心應手。

2、hadoop

我覺的大家聽過大資料就一定會聽過hadoop。hadoop是乙個能夠對大量資料進行離線分布式處理的軟體框架，運算時利用mapreduce對資料進行處理。在大資料中的用途，以及快速搭建乙個hadoop的實驗環境，在本過程中不僅將用到前面的linux知識，而且會對hadoop的架構有深入的理解，並為你以後架構大資料專案打下堅實基礎。

3、hdfs系統

hdfs是建立在多台節點上的分布式檔案系統,使用者可以通過hdfs命令來操作分布式檔案系統。學習這部分內容是可以幫助大家詳細剖析hdfs，從知曉原理到開發網盤的專案讓大家打好學習大資料的基礎，大資料之於分布式，分布式學習從學習分布式檔案系統（hdfs）開始。

4、hive

hive是使用sql進行計算的hadoop框架，工作中常用到的部分，也是面試的重點，此部分大家將從方方面面來學習hive的應用，任何細節都將給大家涉及到。

5、storm實時資料處理

本部分學習過後，大家將全面掌握storm內部機制和原理，通過大量專案實戰，讓大家擁有完整專案開發思路和架構設計，掌握從資料採集到實時計算到資料儲存再到前台展示，所有工作乙個人搞定！譬如可以乙個人搞定**雙11大螢幕專案！不光從專案的開發的層次去實現，並可以從架構的層次站在架構師的角度去完成乙個專案。

6、spark

大資料開發中最重要的部分！本部分內容的學習主要是涵蓋了spark生態系統的概述及其程式設計模型，深入核心的研究，spark on yarn,spark streaming流式計算原理與實踐，spark sql,spark的多語言程式設計以及sparkr的原理和執行。不僅面向專案開發人員，甚至對於研究spark的學員，此部分都是非常有學習指引意義的部分。

7、docker技術

docker 是乙個開源的應用容器引擎，讓開發者可以打包他們的應用以及依賴包到乙個可移植的容器中，然後發布到任何流行的 linux 機器上，也可以實現虛擬化。容器是完全使用沙箱機制，相互之間不會有任何介面（類似 iphone 的 app）。幾乎沒有效能開銷,可以很容易地在機器和資料中心中執行。重要的是,他們不依賴於任何語言、框架包括系統。

以上知識點為籠統的總結，具體的學習思路可以找我獲取！！！

當然除了這些知識點外還包括：redis、zookeeper、scala等等的，總之學習不可能一口吃個胖子。需要不斷的積累總結，找到合適的學習資料和方法。

學習大資料開發應該了解的幾個小知識

學習大資料開發應該了解的幾個技能

關於大資料的幾個小故事

大資料學習筆記 1 1 了解大資料

學習大資料開發應該了解的幾個小知識

學習大資料開發應該了解的幾個技能

關於大資料的幾個小故事

大資料學習筆記 1 1 了解大資料

相關推薦