大資料的前世今生

大資料可算是當下的時髦概念，連賣菜的大爺都能扯上幾句大資料，可到底什麼是大資料？

大資料概念的最早正式提出是在2023年的5月，麥肯錫全球研究院發布了一篇名為《大資料：創新、競爭和生產力的下乙個前沿》的研究報告。文中對大資料做了以下定義：

大資料：超過目前世界上資料庫軟體捕獲，儲存，管理，以及分析能力的資料量

最新的維基百科也基本沿用了這個定義，可見大資料的「大」並非絕對的多少tb，多少pb的概念，而是相對於目前人類的資料處理能力而言的。

那麼我們來看下，近幾年究竟出現了哪些傳統資料庫難以處理又有很高的分析價值的資料呢？

拿facebook（臉譜）舉個例子，這家公司2023年建立，到現在已經擁有超過10億使用者，這些使用者每天產生的資料超過300tb（寫入500g的硬碟需要6百個，刻到5g的***需要6萬張，鋪滿乙個標準籃球場還有得多）。

在分析這些資料的時候，傳統的關係型資料庫顯得有點力不從心。區別於傳統的結構明確的資料，當今我們面臨的大資料通常是碎片化，非結構化的：

非結構化資料：字段長度可變，並且每個欄位的記錄又可以由可重複或不可重複的子字段構成，例如全文文字、影象、聲音、影視、超**等資訊

傳統關係型資料庫注重消除資料冗餘，有著名的三大正規化；到了大資料時代，冗餘成了一種常態，儲存成本顯著下降，人們關心的不再是用最小的空間把資料存下來，而是如何迅速的從海量的資料裡總結出有用的資訊；在這樣的背景下，一些新型的工具如hadoop，nosql資料庫迅速的發展了起來。

威廉將會在之後的文章中對hadoop做更深入的**

題外話：hadoop的核心基礎有兩個，檔案系統叫hdfs（hadoop分布式檔案系統），演算法叫mapreduce（這個一般不翻譯，也不知道該怎麼翻。。）；這兩個東西是google在2023年搞出來的兩篇**，hadoop的創始人doug看到了，發現正好可以用來實現他之前苦思冥想一直沒有思路的網頁檢索軟體，做出來一看，還挺好用，於是給別人用，用的人多了之後就成了apache的頂級專案，在雅虎的支援下，現在已經從乙個邊緣技術幾乎發展成了大資料處理軟體的事實標準。

所以想說一句，技術的根本還是服務於需求，技術滿足需求，需求促使更多的人來改進這項技術，良性迴圈。

大資料的前世今生

大資料大資料的前世今生

LinkedList前世今生

前世今生 STL

大資料的前世今生

大資料 大資料的前世今生

LinkedList前世今生

前世今生 STL

相關推薦

大資料大資料的前世今生