大資料學習之路 1

2021-08-31 16:10:15 字數 472 閱讀 1518

大資料的特點:

1.資料**廣

資料格式多樣化(結構化資料、非結構化資料、excel檔案、文字檔案)

資料量大(最少是tb級別的,甚至可能是pb級別的)、資料增長速度快等

針對以上特點,要考慮的問題

1.資料**廣,如何採集彙總? sqoop,cammel,datax等工具

2.資料採集後,如何儲存?對應出現了gfs、hdfs、tfs等分布式檔案儲存系統

3.由於資料增長速度快,資料儲存要求可以水平擴充套件,

4.資料儲存後,該如何通過運算快速轉換成一致的格式,快速運算出自己要的結果。

對應的mapreduce的分布式運算框架解決了這個問題。

普通的mapreduce只能一批一批的處理,時間延時太長了,為了實現,每輸入一條資料就得到結果,出現了strom/jstrom這樣的低延時流式計算框架。

如果同時要做批處理和流處理,就要搭兩個集群,hadoop集群和storm集群

大資料學習之路

大資料的學習之路,一直在到處學習零零閃閃的東西,但是從來麼有對自己學習的東西進行整理,以及後續做過的東西,一直找不到對應的東西,接下來會對自己的學習記錄下來,以及同類問題遇見的得以解決 4v特徵 volume 資料量大,pb級別 velocity 輸入和處理速度快 流式資料 value 價值密度低 ...

我的大資料學習之路

2020年是艱難的一年,公司效益不好,每個月到手的工資變少了,從那一刻開始有了危機意識,我的這份工作是傳統行業,在畢業選職業的時候沒有認真對待,一步錯步步錯,現在我開始是從新規劃自己的職業路線,這樣付出了時間和金錢的代價。2021年我的願望是跳到網際網路公司,做大資料相關的工作 同時自己的生活也開始...

大資料學習筆記1

文件分類 通常文件中最常出現的詞都是無意義的常用詞,而關於主題的詞語通常出現的並不多,但又不是所有少見的詞都有用。1.找出跟主題相關的重要詞彙 2.計算tf.idf,度量給定詞語在少數文件中反覆出現程度的形式化指標稱為tf.idf term frequency,inverse document fr...