什麼是大資料

2021-09-21 17:21:46 字數 1866 閱讀 5775

任 何比較關注業界新聞的人,都會知道最近一兩年it行業的幾個關鍵字:移動端、lbs、sns和大資料。前邊三個,大家應該是很熟悉的,因為身邊早已充斥著 相關的應用。唯獨最後乙個大資料,在大部分人眼中卻是非常陌生的,除了知道如資料探勘、智慧型推薦等幾個看似非常高深的詞彙之外,卻是不知其裡的。

例 如通過檢視「周大福鑽石」的搜尋和成交資訊( ), 我們可以很清楚的看到,從2011-08-01到2012-11-30,487天來搜尋周大福鑽石的人群中有68%的女性和32%的男性,但是在購買週大 福鑽石的人群中,卻是100%的男性。再例如對比「加多寶」和「王老吉」( ),我們很容易就會看到,從今年四月中旬加多寶出現之後,王老吉的搜尋量明顯下降,加多寶則直線上公升,在9月12日前後,兩者的曲線發生了歷史性的交匯。

大 資料時代中還有一類產物便是基於大資料分析和挖掘的能力,針對使用者進行個性化的資訊推送的產品,目前美國亞馬遜、阿里巴巴集團旗下的**網等電子商務** 中,這種產品均在越來越廣泛的得到應用,並取得了很好的轉化效果,比傳統的導購模式表現出了更高的轉化率(可以理解為看這些頁面的人中實際購買這些頁面呈 現的商品的人的比例)。另外在**的後台,基於大資料的bi(商業智慧型)分析更是早已為**的運營人員和規劃人員提供了寶貴的資訊支援。目前國內外也有很 多資料公司通過構建大資料分析系統來服務各類企業的bi部門。

看到這裡,有些人可能覺得,所謂的資料產品僅僅是對資料進行一些統計分析,然後呈現出來,沒什麼了不起的。這麼說從某種意義上來講所言非虛,但是,筆者希望本文的讀者在任何時候都記住一句話:看起來簡單的事情,實質上往往都是不簡單的。

處理這麼多資料,顯然,單獨的計算機,哪怕是大型機,都很可能是力有不逮的。那麼,我們就要借助所謂的雲計算技術了。在介紹這部分內容的同時,筆者亦會介紹三個概念:離線計算、實時計算和流資料計算。

有 些讀者可能用過一些資料庫系統,例如sql server、mysql、oracle等,從本質上講,這些資料庫中對資料的計算也是在查詢時發生的。但是,在大資料時代,資料量極度膨脹,使得這些傳 統的資料庫很難在短時間內從海量資料中查詢計算出使用者需要的資料。舉個例子,假設**(天貓)每天的成交交易的筆數是1000萬筆(實際上顯然不止這個數 字),那麼30天內就有3億資料量的積累,在這3億資料條目中,要求在0.5秒內查詢出符合三四種條件組合的成交量,並且做分組(group)、彙總 (sum)、排序(order)等運算組合的情況下,單機部署的oracle、mysql等的效能都無法滿足這個要求。所以便需要更高效能的,在多個節點 上平行計算的實時計算系統來支撐了。目前實時計算系統中還沒有像hadoop那樣占有極大的市場份額的開源軟體,各大公司都在開發自己的實時計算系統,例 如阿里巴巴集團的garuda( )系統。實時計算系統一般也和業務資料庫一起被歸類於oltp(聯機事務處理系統)中。

離 線計算和實時計算,雖然計算發生的時刻不同,但是資料裝載的時刻往往是相同的,都是在每天凌晨裝載完畢。而流資料計算系統,則指的是資料源源不斷的流到系 統中,在資料到達時便計算相關結果的系統。顯然流資料系統是可以計算呈現幾分鐘內新增的資料的。目前這方面的相關應用比較少,可以查到的例子如阿里巴巴集 團資料平台的galaxy( )系統,為資料魔方等(mofang.taobao.com)提供流資料計算的支援。

以 上種種,歸結起來,大資料便是海量的(volume)、多種類的(variety)、需要大規模的處理才能夠凝聚足夠價值的(value)、處理和檢索響 應速度快的(velocity)的資料。處理大資料所需要的系統,和傳統的資料探勘工作所需要的系統有根本性區別。同時,大資料時代愈發強調資料的關聯 性,將各種資料之間關聯組合,以產生更大的價值。

我 們可以試想一下,以我國公安機關擁有的公民資訊為核心,加上民航和鐵路部門擁有的出行資訊、銀行擁有的交易資訊、各個城市的社保公積金資料、電信系統的數 據等等,構建一套大規模的國民資料探勘處理系統,這樣的系統的資料價值自然是極大的,顯然,便能夠充分體現出,關聯的大資料(linked big data)所產生的巨大價值了。

大資料 什麼是大資料

1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...

大資料 什麼是大資料?

海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...

大資料 什麼是大資料?

在網際網路技術發展到至今階段,大量日常,工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的技術應運而生,這就是大資料技術。換個角度說,大資料是 有海量的資料 有海量的資料進行挖掘的需求,有對海量資料進行挖...