大資料入門

2021-10-06 05:16:45 字數 943 閱讀 1446

處理過程:cpu處理記憶體資料,記憶體資料從硬碟中讀取

瓶頸:當資料量大時,會增加硬碟到記憶體的io;單機為縱向擴充套件,成本較高,要求硬碟要大,記憶體要大,cpu速度要快

分布式儲存

大資料用n臺伺服器存放乙份大的資料,對資料進行並行處理,io比單臺裝置整整提公升n倍。解決伺服器成本問題和io讀寫問題

分布式計算

分布式計算基於分布式儲存

zookeeper分布式鎖,管理整個集群的協調,保證大資料的高可靠

hdfs分布式檔案系統

mapreduce分布式計算框架

yarn資源管理

hbase分布式nosql資料庫

hive分布式資料倉儲

分布式實時流計算引擎

flume海量日誌聚合

kafka分布式訂閱系統

sqoop資料採集

flink流計算處理和批處理平台

spark基於記憶體的分布式計算

*資料庫

大資料資料規模

小(以mb為處理單位)

大(以gb、tb、pb為處理單位)

資料型別

單一(結構化為主)

繁多(結構化、半結構化、非結構化)

模式和資料的關係

先有模式後有資料

先有資料後有模式,模式隨資料增多不斷演變

快速入門大資料

本人30歲,從學大資料到現在有6年的時間,我談一下我的經驗分享 我自己的經歷 剛開始大資料是看書,一頁頁的看書,因為身邊有乙個好的資源,有問題可以問我朋友,後來發現看大資料的零基礎書籍很難看下去,很多專業的東西對於乙個新手根本就看不懂,沒有什麼效率。在這裡我個人建議,初學不要看書,我的建議是學完一部...

大資料入門學習?

第一部分 了解大資料平台架構 大資料有非常大的價值,不管是從幫助企業創造營收還是從提高效率 節省企業成本角度。大資料要是做好了,將會是乙個企業增長的發動機,推動業務突飛猛進的發展。要實現大資料的價值,真正讓大資料為企業創造貢獻,首先必須要積累有大資料,把日常的業務和使用者行為資料收集起來。有些資料是...

初識大資料入門

大資料平台從平台部署和資料分析過程分以下幾步 一 linux系統安裝 一般使用開源版的redhat系統 centos作為底層平台。為了提供穩定的硬體基礎,在給硬碟做raid和掛載資料儲存節點的時,需要按情況配置。例如,可以選擇給hdfs的namenode做raid2以提高其穩定性,將資料儲存與作業系...