漫談大資料倉儲與挖掘系統(一) 前言 大資料的價值

2021-06-12 18:01:49 字數 1848 閱讀 5303

漫談大資料倉儲與挖掘系統(二):層次、維度與主題

漫談大資料倉儲與挖掘系統(三):etl的開始——資料的傳輸和同步

任何比較關注業界新聞的人,都會知道最近一兩年it行業的幾個關鍵字:移動端、lbs、sns和大資料。前邊三個,大家應該是很熟悉的,因為身邊早已充斥著相關的應用。唯獨最後乙個大資料,在大部分人眼中卻是非常陌生的,除了知道如資料探勘、智慧型推薦等幾個看似非常高深的詞彙之外,卻是不知其裡的。

例如通過檢視「周大福鑽石」的搜尋和成交資訊( 我們可以很清楚的看到,從2011-08-01到2012-11-30,487天來搜尋周大福鑽石的人群中有68%的女性和32%的男性,但是在購買周大福鑽石的人群中,卻是100%的男性。再例如對比「加多寶」和「王老吉」(我們很容易就會看到,從今年四月中旬加多寶出現之後,王老吉的搜尋量明顯下降,加多寶則直線上公升,在9月12日前後,兩者的曲線發生了歷史性的交匯。

大資料時代中還有一類產物便是基於大資料分析和挖掘的能力,針對使用者進行個性化的資訊推送的產品,目前美國亞馬遜、阿里巴巴集團旗下的**網等電子商務**中,這種產品均在越來越廣泛的得到應用,並取得了很好的轉化效果,比傳統的導購模式表現出了更高的轉化率(可以理解為看這些頁面的人中實際購買這些頁面呈現的商品的人的比例)。另外在**的後台,基於大資料的bi(商業智慧型)分析更是早已為**的運營人員和規劃人員提供了寶貴的資訊支援。目前國內外也有很多資料公司通過構建大資料分析系統來服務各類企業的bi部門。

看到這裡,有些人可能覺得,所謂的資料產品僅僅是對資料進行一些統計分析,然後呈現出來,沒什麼了不起的。這麼說從某種意義上來講所言非虛,但是,筆者希望本文的讀者在任何時候都記住一句話:看起來簡單的事情,實質上往往都是不簡單的。

處理這麼多資料,顯然,單獨的計算機,哪怕是大型機,都很可能是力有不逮的。那麼,我們就要借助所謂的雲計算技術了。在介紹這部分內容的同時,筆者亦會介紹三個概念:離線計算、實時計算和流資料計算。

有些讀者可能用過一些資料庫系統,例如sql server、mysql、oracle等,從本質上講,這些資料庫中對資料的計算也是在查詢時發生的。但是,在大資料時代,資料量極度膨脹,使得這些傳統的資料庫很難在短時間內從海量資料中查詢計算出使用者需要的資料。舉個例子,假設**(天貓)每天的成交交易的筆數是1000萬筆(實際上顯然不止這個數字),那麼30天內就有3億資料量的積累,在這3億資料條目中,要求在0.5秒內查詢出符合三四種條件組合的成交量,並且做分組(group)、彙總(sum)、排序(order)等運算組合的情況下,單機部署的oracle、mysql等的效能都無法滿足這個要求。所以便需要更高效能的,在多個節點上平行計算的實時計算系統來支撐了。目前實時計算系統中還沒有像hadoop那樣占有極大的市場份額的開源軟體,各大公司都在開發自己的實時計算系統,例如阿里巴巴集團的garuda(系統。

離線計算和實時計算,雖然計算發生的時刻不同,但是資料裝載的時刻往往是相同的,都是在每天凌晨裝載完畢。而流資料計算系統,則指的是資料源源不斷的流到系統中,在資料到達時便計算相關結果的系統。顯然流資料系統是可以計算呈現幾分鐘內新增的資料的。目前這方面的相關應用比較少,可以查到的例子如阿里巴巴集團資料平台的galaxy(系統,為資料魔方(mofang.taobao.com)提供流資料計算的支援。

以上種種,歸結起來,大資料便是海量的(volume)、多種類的(variety)、需要大規模的處理才能夠凝聚足夠價值的(value)、處理和檢索響應速度快的(velocity)的資料。處理大資料所需要的系統,和傳統的資料探勘工作所需要的系統有根本性區別。同時,大資料時代愈發強調資料的關聯性,將各種資料之間關聯組合,以產生更大的價值。

好了,說了這麼多,序言所要講述的內容也就差不多了。本文接下來的章節會對大資料倉儲與挖掘系統做乙個簡單的介紹,之後會以我國公安機關擁有的公民資訊、加上民航部門擁有的出行資訊、銀行擁有的交易資訊等資料為例,逐漸講述如何構建乙個大資料系統,當然這樣的系統是不可能存在的,不過作為例子描述卻是極佳的。(未完待續)

我的大資料之路(一) 資料倉儲也需要大資料

一 楔子 大資料傳統企業實施,其路漫漫,絕不會如曇花一現,探索大資料在傳統行業的實施之路,尋找一條適合傳統行業的企業大資料實施方法體系,是我執著堅守的信念,大資料是一種信仰,吾將上下而求索。記下專案中的點滴,算是日誌,自勉。二 專案背景 最近在處理乙個商業銀行的大資料專案,旨在構建大資料資源池,專案...

胖子哥的大資料之路(一) 資料倉儲也需要大資料

ppv課 2014年2月25日 hadoop,張子良 閱讀 2127 一 楔子 大資料傳統企業實施,其路漫漫,絕不會如曇花一現,探索大資料在傳統行業的實施之路,尋找一條適合傳統行業的企業大資料實施方法體系,是我執著堅守的信念,大資料是一種信仰,吾將上下而求索。記下專案中的點滴,算是日誌,自勉。二 專...

胖子哥的大資料之路(一) 資料倉儲也需要大資料

一 楔子 大資料傳統企業實施,其路漫漫,絕不會如曇花一現,探索大資料在傳統行業的實施之路,尋找一條適合傳統行業的企業大資料實施方法體系,是我執著堅守的信念,大資料是一種信仰,吾將上下而求索。記下專案中的點滴,算是日誌,自勉。二 專案背景 最近在處理乙個商業銀行的大資料專案,旨在構建大資料資源池,專案...