學習大資料開發應該了解的幾個小知識

2021-12-30 09:50:44 字數 1249 閱讀 7997

1、linux

大資料集群主要建立在linux作業系統上,linux是一套免費使用和自由傳播的類unix作業系統。而這部分的內容是大家在學習大資料中必須要學習的,只有學好linux才能在工作中更加的得心應手。

2、hadoop

我覺的大家聽過大資料就一定會聽過hadoop。hadoop是乙個能夠對大量資料進行離線分布式處理的軟體框架,運算時利用mapreduce對資料進行處理。在大資料中的用途,以及快速搭建乙個hadoop的實驗環境,在本過程中不僅將用到前面的linux知識,而且會對hadoop的架構有深入的理解,並為你以後架構大資料專案打下堅實基礎。

3、hdfs系統

hdfs是建立在多台節點上的分布式檔案系統,使用者可以通過hdfs命令來操作分布式檔案系統。學習這部分內容是可以幫助大家詳細剖析hdfs,從知曉原理到開發網盤的專案讓大家打好學習大資料的基礎,大資料之於分布式,分布式學習從學習分布式檔案系統(hdfs)開始。

4、hive

hive是使用sql進行計算的hadoop框架,工作中常用到的部分,也是面試的重點,此部分大家將從方方面面來學習hive的應用,任何細節都將給大家涉及到。

5、storm實時資料處理

本部分學習過後,大家將全面掌握storm內部機制和原理,通過大量專案實戰,讓大家擁有完整專案開發思路和架構設計,掌握從資料採集到實時計算到資料儲存再到前台展示,所有工作乙個人搞定!譬如可以乙個人搞定**雙11大螢幕專案!不光從專案的開發的層次去實現,並可以從架構的層次站在架構師的角度去完成乙個專案。

6、spark

大資料開發中最重要的部分!本部分內容的學習主要是涵蓋了spark生態系統的概述及其程式設計模型,深入核心的研究,spark on yarn,spark streaming流式計算原理與實踐,spark sql,spark的多語言程式設計以及sparkr的原理和執行。不僅面向專案開發人員,甚至對於研究spark的學員,此部分都是非常有學習指引意義的部分。

7、docker技術

docker 是乙個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到乙個可移植的容器中,然後發布到任何流行的 linux 機器上,也可以實現虛擬化。容器是完全使用沙箱機制,相互之間不會有任何介面(類似 iphone 的 app)。幾乎沒有效能開銷,可以很容易地在機器和資料中心中執行。重要的是,他們不依賴於任何語言、框架包括系統。

以上知識點為籠統的總結,具體的學習思路可以找我獲取!!!

當然除了這些知識點外還包括:redis、zookeeper、scala等等的,總之學習不可能一口吃個胖子。需要不斷的積累總結,找到合適的學習資料和方法。

學習大資料開發應該了解的幾個技能

1 linux 大資料集群主要建立在linux作業系統上,linux是一套免費使用和自由傳播的類unix作業系統。而這部分的內容是大家在學習大資料中必須要學習的,只有學好linux才能在工作中更加的得心應手。2 hadoop 我覺的大家聽過大資料就一定會聽過hadoop。hadoop是乙個能夠對大量...

關於大資料的幾個小故事

第乙個故事,搜狗熱詞裡的商機 點評 搜狗擁有輸入法,搜尋引擎,那些在輸入法和搜尋引擎上反覆出現的熱詞,就是搜狗熱搜榜的 通過對海量詞彙的對比,找出哪些是網民關注的。這就是大資料的應用。第二個故事,阿里雲知道誰需要貸款 這是阿里人講述的乙個故事。每天,海量的交易和資料在阿里的平台上跑著,阿里通過對商戶...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...