好程式設計師分享自學大資料入門乾貨

2021-09-23 18:31:44 字數 649 閱讀 6457

首先,提及大資料一詞的概念。大資料本質還在於資料,但是它有著新的特徵亮點。包括:資料**廣,資料格式多樣化(結構化資料、非結構化資料、excel檔案、文字檔案等)、資料量大(最少也是tb級別的、甚至可能是pb級別)、資料增長速度快等等。

擴充套件講大資料的4個基本特徵,我們將進行下面額思考:

1.資料**廣?

廣泛的資料**從何而來,通過何種方式進行採集與彙總?相對應的我們出現sqoop,

cammel,datax等工具。

2.資料採集之後,該如何儲存?

採集之後,為了方便儲存,我們對應的出現了gfs,hdfs,tfs等分布式檔案儲存系統。

並且,介於資料的增長速度非常之快,這也就要求我們,資料儲存必須可以進行水平擴充套件。

3.資料儲存之後,該如何通過運算快速轉化成一致的格式,又該如何快速運算出自己想要的結果?

4.此外,為了提高工作效率,加快運速度,出現了一些輔助工具:

ozzie,azkaban:定時任務排程的工具。

hue,zepplin:圖形化任務執行管理,結果檢視工具。

scala語言:編寫spark程式的最佳語言,當然也可以選擇用python。

python語言:編寫一些指令碼時會用到。

allluxio,kylin等:通過對儲存的資料進行預處理,加快運算速度的工具。

好程式設計師大資料學習路線分享MAPREDUCE

好程式設計師大資料學習路線分享mapreduce,需求 統計大量的文字檔案中的單詞出現的次數 2 階段之間的呼叫 3 業務程式 task程式 如何併發到集群並啟動程式 4 如何監控task程式的執行狀態,如何處理異常 這些問題是開發分布式程式都會面臨的問題,完全可以封裝成框架 mr 的結構 乙個完整...

好程式設計師大資料培訓技術分享 Hadoop集群同步

好程式設計師 分享 hadoop集群同步 分享 是技術突飛猛進的很好體驗 在 好程式設計師 學習大資料技術 開始學會了分享,班裡五十個人,每個人就能得到49份不同技術 每次到分享的時刻,總會收穫不同的想法.一 同步方式 選擇乙個機器,作為時間伺服器 這裡選擇hadoop01 所有的機器與這台集群時間...

好程式設計師大資料學習路線分享Scala分支和迴圈

好程式設計師大資料學習路線分享scala分支和迴圈 3.3.條件表示式 表示式 乙個具有執行結果的 塊。結果是具體的值或者 表示式的思考方式 以表示式為中心的程式設計思想 1.表示式和語句的區別 表示式有返回值,語句被執行。表示式一般是乙個語句塊,執行後,返回乙個值 2.不使用return語句,最後...