5分鐘GET一場清華大資料講座實戰應用案例乾貨

2021-09-23 06:25:32 字數 3065 閱讀 5288

9月13日晚,由資料科學研究院主辦,國雙科技、清華大資料產業聯合會承辦的2016秋季學期首場清華大資料「應用·創新」系列講座,在清華大學fit樓多功能廳順利舉行。本場講座邀請到了國雙聯合創始人、國雙副總裁黃勇堅,通過實戰應用案例對lambda架構進行了全方位解讀。

回顧整個it技術發展歷程,它始終是以促使人類辦事更加容易,生活更加方便為發展趨勢的。

上個世紀40年代以來,依據馮·諾依曼架構、圖靈理論而造出了計算機。初心其實是為了打仗,計算原子彈路徑千萬別跑偏,當時需要龐大的人工的計算量,但二戰期間人力有限。ibm的神話由此誕生。

隨著時代的發展,除了計算,人們還產生了辦公、娛樂等訴求。於是計算機逐步個人化、微型化。那個年代成就了微軟、英特爾這樣的巨頭。

中國大資料的兩條腿

實質上,大資料技術是以解決業務問題為導向的。國雙科技這家公司的文化也是一樣以客戶為中心,利用「大資料」幫助客戶去解決業務問題,同時發現新的問題,以此也可以驅使技術進步。

中國的技術市場比較偏應用,各種基於大資料的應用滿天飛,但是做底層做框架的公司並不多。另一方面,由於中國網際網路使用者數量龐大,大資料的應用又在不斷產生新的資料。

為了能夠用好這麼海量的資料,中國的大資料行業需要兩方面的人才,第一類是業務人才,第二類是技術人才。首先,「大資料」需要解決業務問題,業務專家必不可少。其次,相關專業的技術人才所做的的研究也不可或缺。因此「大資料」這個領域將會是乙個非常寬廣的就業市場。

大資料解決四類問題

「所有的技術的發展是為了解決業務問題,解決人們的衣食住行等生活問題,使人類社會變得更加美好」。用抽象的方式做個歸類的話,基本可以歸為四大類:

【描述性分析】:發生了什麼?

【診斷性分析】:事情發生後,分析為什麼會發生?

【**性分析】:掌握規律,**下一次什麼時候發生?

【分析應用】:根據已經發生的事來解決實際問題,促進業務的發展。

奧運會上的大資料

商用大資料的最低配置

類似奧運會的商用「大資料」系統有哪些必須滿足的效能呢?

第一,高可用性。系統裡的這些元件可能會隨時掛掉乙個,或者若干個,我們必須保證系統還要能正常的工作;

第二,可伸縮性。系統可以通過橫向擴容去加機器,去解決資料量增大的問題。

第三,容錯性。如果程式出了錯誤之後,要易於恢復;

第四,高效能。要做到實時且快速反應,不能半天才出來結果。

大資料領域的最基本問題與解決之道

回到上面提到的「在奧運期間,不同的終端,不同的地域,觀眾究竟分別**了多少次呢?」這個問題,從問題到答案我們可以看到「大資料」領域最基本的問題以及解決之道。

【olap資料倉儲】

olap的英文是online analyticsprocessing,這種技術是專門用於資料分析的,它的核心概念是維度和指標,維度就是分析問題的角度,指標就是乙個數字,經過聚合計算的乙個數字,通過求平均、求和,用聚合的方式得到了乙個指標。這些維度和指標會組成乙個資料立方體,允許使用者去進行多個維度的察看這些資料立方體的數字,不同的維度與指標交叉就產生了多維度自由剖析。

【oltp資料庫】

oltp資料庫典型的應用就是使用者註冊,在資料庫裡面新新增一條使用者的資訊,上飛機的時候看一下這個使用者有沒有買票,進圖書館把書還了等,把還的書從借閱的狀態變成未借閱的狀態,這很顯然是資料的更新、查詢,一般不用聚合,這是很典型的oltp資料庫應用。

【實時查詢(cep)】

實時查詢顧名思義就是要求在很短的延期內,能夠對資料做各種各樣的預計算,「在奧運期間,不同的終端,不同的地域,觀眾究竟分別**了多少次呢?」的問題就是典型的應用,它強調的實時,現在這一刻。

在學習和了解了解決業務的這三種查詢方法之後,我們回過頭來看cntv的那個問題,就是做實時的查詢,在此基礎上利用oltp及olap進行聚合分析,滿足那些沒有提到的更為複雜的功能需求時,這就是lambda架構在企業大

資料領域的實際應用。

今天我們從對「大資料」行業的理解說到大資料技術是以「解決業務」為導向,再到大資料能解決什麼問題?解決了cntv的什麼問題?最後利用國雙提供給cntv服務中的乙個小問題來例項證明「大資料」裡面最基礎的問題其實也是最佳的解決之道——查詢,怎麼查詢呢?我將查詢分為三種查詢,有olap、oltp以及實時查詢,跟大家講了這些查詢的概念,今天跟大家所講的lambda的架構,主要是從乙個企業的實際角度來講,用實際發生的案例讓大家來理解lambda架構在滿足高可用性、容錯性、可伸縮性和高效能的情況下,怎麼能夠通過分層的方式,巧妙的把這些東西揉到一起,去解決業務的問題,希望大家能夠通過我的這次演講對「大資料」對「lambda架構」有新的認識,謝謝大家。

每天5分鐘玩轉Docker 學習總結 一

每天5分鐘玩轉docker容器技術 總結 2.1 什麼是容器?2.2 為什麼需要容器?2.3 容器時如何工作的?1 docker 架構 docker 採用的是client server架構。客戶端向伺服器傳送請求,伺服器負責構建 執行和分發容器。客戶端和伺服器可以執行在同乙個host上,客戶端也可以...

一分鐘了解5G

5g 一分鐘了解5g 提速 縮短傳輸時間 提高頻率 縮短波長 5g現在使用的是公釐波。28ghz與60ghz是最有望應用在5g通訊的兩個頻段.4g lte的頻段最高頻率約 2ghz 頻寬約 100mhz 即 100mb s 12.5 mb s 位 b 8個位元組 b 5g的頻段 28ghz 頻寬約 ...

5分鐘理解一致性雜湊演算法

每天給你誠意滿滿的乾貨 來自 cywosp 一致性雜湊演算法在1997年由麻省理工學院提出的一種分布式雜湊 dht 實現演算法,設計目標是為了解決網際網路中的熱點 hot spot 問題,初衷和carp十分類似。一致性雜湊修正了carp使用的簡 單雜湊演算法帶來的問題,使得分布式雜湊 dht 可以在...