大資料技術大會總結 5號

2021-06-19 15:19:27 字數 2312 閱讀 5874

2023年12月5日-6日參加了為期兩天的2013中國大資料技術大會(big data technologyconference, bdtc2013),本期會議主題是:「應用驅動的架構與技術 」。會議分為全體會議和7個的「大資料架構與系統」、「大資料技術」、「大資料應用」、「大資料研究與發展」、「大資料基準測試」「智慧型交通與大資料」以及「傳統行業如何駕馭大資料」主題論壇。

1.中科院計算所研究員程學旗演講了《大資料熱點問題與發展趨勢》和《大資料***》發布,他主要演講了大資料10大發展趨勢。

a. 大資料從概念化走向價值化

b.大資料處理架構的多樣化模式並存

c.大資料安全與隱私越來越重要

d.大資料分析與視覺化成為熱點

e.大資料產業成為戰略性產業

f.資料的商品化和資料共享的聯盟化

g.基於大資料推薦和**正逐步流行

h.大資料效能成為支撐性的技術

i.資料科學的興起

j.大資料生態環境逐步完善

2.經過「第一屆中國大資料技術創新與創業大賽」頒獎後,ion stoica演講了《taming big data with berkeley data analyticsstack(bdas)》

ion stoica是uc berkeley計算機教授,amplab共同創始人,spark、mesos核心設計。他主要介紹了hadoop之外的乙個分布式框架bdas,整合互動查詢(類似於hbase)、批處理(類似於mr)、流處理(類似於storm)到該框架。

主要內容有:

a.bdas的速度是mr的100倍,**量比mr少2到5倍,這裡的提公升主要是由於記憶體操作,同時他還說,bdas具有較高的容錯性。

b.專案的架構如下圖,我感覺大體上和hadoop的架構差不多。底層儲存使用了tachyon,替代了hdfs,資源管理使用了mesos替代了yarn,計算層使用了spark,替代了mr

c.架構圖

3.中國移動研究院孫少陵演講了《大資料實時處理技術發展趨勢及中國移動實踐和展望》

隨著工信部正式向中國移動、中國聯通、中國電信三家發布了

4g的牌照,意味著中國正式啟動了

4g無線寬頻的時代。全球移動網際網路使用者數的增長非常快,比傳統網際網路增速高三倍,對整個移動通訊資料的增長帶來了非常大的促進作用。這些資料具有

4v的特性,

volume

(靜止的資料)、

velocity

(運動的資料)、

variety

(資料形態各異)和

veracity

(資料不夠準確)等特點

中國移動以及其他運營商對資料探勘,資料處理,資料分析的實時性需求越來越迫切。面臨的主要問題有:

a.實時這種流式資料的處理

資料動態產生,很多資料稍縱即逝,跟位置和時間的關聯性非常強,必須及時處理,來了資料處理,處理完馬上送上去,流式處理在解決這樣的問題

b.海量資料的快速處理

這裡主要的內容是批處理,將下級單位的資料彙總,按日、月呈現

c.物聯網和網際網路事件結合的新型大資料實時處理應用,將實時流計算技術應用於物聯網住處綜合應用平台,具體架構如下圖所示

億的pb

和手機端

13億的pb

hadoop

、spark

、storm

和hbase

他從大資料系統架構師的角度分享了應用驅動軟體和軟體定義資料中心計算。大資料主要特點有

a.資料規模比以前大很多

b.通過快速迭代進行創新

c.資料處理技術比面向使用者服務的技術所佔比重更大

6. 阿里飛天平台總架構師唐洪演講的《飛天開放平台》

唐洪主要介紹了飛天開放平台,乾貨不多,主要架構如下圖所示

總得來說5號的乾貨真不太多,午餐很給力,比上次csdn主辦的在車庫吃盒飯強多了,在bs一下。

大資料技術概論習題(5)

1 觀察離散資料分布的常用方法是 a a 直方圖 b 餅圖 c 密度圖 d 箱線圖 2交叉分析是基於 橫向地組合交叉。a 同一緯度 b 不同維度 c 同一方向 d 以上都不是 3離散型隨機變數的可能值為 c a 乙個區間 b 無限個 c 有限個數 d 1個 4以下不屬於資料分析時用到的方法是 c a...

參加csdn的大資料技術大會有感

整整一天的大會,相當的豐盛,我不想去贅述大會的各個細節,下面就簡單談談大會對我的一些啟發或者是叫收穫 1 使用nosql的開源產品,必須由實際的需求驅動,而不是為了追趕時髦而去使用,如果業務沒有這樣的需求,請遠離nosql產品。2 大資料時代,開源nosql產品確實解決了我們面臨的很多問題,它簡化了...

大資料技術

如果沒有乙個好的開始,不妨試試乙個壞的開始吧。因為乙個壞的開始,總比沒有開始強。而完美的開始,則永遠都不會來到。資料採集傳輸主要技術 分為兩類,一類是離線批處理 另一類是實時資料採集和傳輸 離線批處理最有名的是sqoop 實時資料採集和傳輸最為常用的是flume和kafka sqoop 一款開源的離...