1 認識大資料

大資料技術的戰略意義不在於掌握龐大的資料量，而在於對這些資料進行專業化處理。

資料一直都在以每年50%的速度增長，也就是說每兩年就增長一倍。

大資料是由結構化和非結構化資料組成的

– 10%的結構化資料，儲存在資料庫中

– 90%的非結構化資料，它們與人類資訊密切相關

資料結構（參閱c語言資料結構）

資料結構是計算機儲存、組織資料的方式。資料結構是指相互之間存在一種或多種特定關係的資料元素的集合。通常情況下，良好的資料結構可以帶來更高的執行或者儲存效率。資料結構往往同高效的檢索演算法和索引技術有關。

1、結構化資料即行資料,儲存在資料庫裡,可以用二維表（行列形式）結構來邏輯表達實現的資料

2、非結構化資料庫主要是針對非結構化資料而產生的，與以往流行的關聯式資料庫相比，其最大區別在於它突破了關聯式資料庫結構定義不易改變和資料定長的限制，支援重複字段、子欄位以及變長字段，在處理連續資訊（包括全文資訊）和非結構化資訊（包括各種多**資訊）中有著傳統關係型資料庫所無法比擬的優勢。非結構化資料（全文文字、圖象、聲音、影視、超**等資訊）。

3、半結構化資料，就是介於完全結構化資料（如關係型資料庫、物件導向資料庫中的資料）和完全無結構的資料（如聲音、影象檔案等）之間的資料，html文件就屬於半結構化資料。

資料模型：

結構化資料：二維表（關係型）

半結構化資料：樹、圖

非結構化資料：無

捨恩伯格的《大資料時代》描述大資料的三個特徵：

( 1}全樣而非抽樣；

( 2)效率而非精確；

( 3)相關而非因果。

資料容量單位：

1 byte= 8 bit

1 kb = 1,024 bytes

1 mb = 1,024 kb = 1,048,576 bytes

1 gb = 1,024 mb = 1,048,576 kb

1 tb = 1,024 gb = 1,048,576 mb

1 pb = 1,024 tb = 1,048,576 gb

1 eb = 1,024 pb = 1,048,576 tb

1 zb = 1,024 eb = 1,048,576 pb

1 yb = 1,024 zb = 1,048,576 eb

1 bb = 1,024 yb = 1,048,576 zb

1 nb = 1,024 bb = 1,048,576 yb

1 db = 1,024 nb = 1,048,576 bb

大資料與大規模資料、海量資料的差別

從物件角度看，大資料是大小超出典型資料庫軟體採集、儲存、管理和分析等能力的資料集合。大資料並非大量資料的簡單無意義的堆積，資料量大並不意味著一定具有可觀的利用前景。資料間是否具有結構性和關聯性，是「大資料」與「大規模資料」的重要差別。

從技術角度看，大資料技術是從各種各樣型別的大資料中，快速獲得有價值資訊的技術及其整合。「大資料」與「大規模資料」、「海量資料」等類似概念間的最大區別，就在於「大資料」這一概念中包含著對資料物件的處理行為。為了能夠完成這一行為，從大資料物件中快速挖掘更多有價值的資訊，使大資料「活起來」，就需要綜合運用靈活的、多學科的方法，包括資料聚類、資料探勘、分布式處理等，而這就需要擁有對各類技術、各類軟硬體的整合應用能力。可見，大資料技術是使大資料中所蘊含的價值得以發掘和展現的重要工具。

從應用角度看，大資料是對特定的大資料集合、整合應用大資料技術、獲得有價值資訊的行為。正由於與具體應用緊密聯絡，甚至是一對一的聯絡，才使得「應用」成為大資料不可或缺的內涵之一。

大資料與雲計算

雲計算關鍵技術中的海量資料儲存技術、海量資料管理技術、mapreduce程式設計模型，都是大資料技術的基礎。

大資料技術與雲計算有相同，也有差異

大資料與物聯網

物聯網就是「物物相連的網際網路」。物聯網通過智慧型感知、識別技術與普適計算、泛在網路的融合應用，被稱為繼計算機、網際網路之後世界資訊產業發展的第三次浪潮

• 物聯網架構可分為三層，包括感知層、網路層和應用層

• 物聯網，移動網際網路再加上傳統網際網路，每天都在產生海量資料，而大資料又通過雲計算的形式，將這些資料篩選處理分析，提取出有用的資訊，這就是大資料分析。

大資料儲存和管理技術

主要包括分布式快取、基於mpp的分布式資料庫、分布式檔案系統、各種nosql分布式儲存方案等

分布式快取使用carp（ caching array routing protocol）技術，可以產生一種高效率無接縫式的快取，使用上讓多台快取伺服器形同一台，並且不會造成資料重複存放的情況。分布式快取提供的資料記憶體快取可以分布於大量單獨的物理機器中。換句話說，分布式快取所管理的機器實際上就是乙個集群。它負責維護集群中成員列表的更新，並負責執行各種操作，比如說在集群成員發生故障時執行故障轉移，以及在機器重新加入集群時執行故障恢復。

分布式資料庫系統通常使用較小的計算機系統，每台計算機可單獨放在乙個地方，每台計算機中都有dbms的乙份完整拷貝副本，並具有自己區域性的資料庫，位於不同地點的許多計算機通過網路互相連線，共同組成乙個完整的、全域性的大型資料庫。

spanner是乙個可擴充套件、多版本、全球分布式並支援同步複製的分布式資料庫。它是google的第乙個可以全球擴充套件並且支援外部一致性事務的分布式資料庫。 spanner能做到這些，離不開乙個用gps和原子鐘實現的時間api。這個api能將資料中心之間的時間同步精確到10ms以內。因此， spanner有幾個給力的功能：無鎖讀事務、原子模式修改、讀歷史資料無阻塞。

分布式檔案系統，不得不提的是google的gfs。基於大量安裝有linux作業系統的普通pc構成的集群系統，整個集群系統由一台 master（通常有幾台備份）和若干臺trunkserver構成。 gfs中檔案被分成固定大小的trunk分別儲存在不同的trunkserver 上，每個trunk有多份（通常為3份）拷貝，也儲存在不同的trunkserver上。 master負責維護gfs中的 metadata，即檔名及其trunk資訊。客戶端先從master上得到檔案的metadata，根據要讀取的資料在檔案中的位置與相應的 trunkserver通訊，獲取檔案資料。

nosql資料庫，指的是非關係型的資料庫。隨著網際網路web2.0**的興起，傳統的關聯式資料庫在應付web2.0**，特別是超大規模和高併發的sns型別的web2.0純動態**已經顯得力不從心，暴露了很多難以克服的問題，而非關係型的資料庫則由於其本身的特點得到了非常迅速的發展。

現今的計算機體系結構在資料儲存方面要求具備龐大的水平擴充套件性（horizontal scalability，是指能夠連線多個軟硬體的特性，這樣可以將多個伺服器從邏輯上看成乙個實體），而nosql致力於改變這一現狀。目前google的 bigtable 和amazon 的dynamo使用的就是nosql型資料庫。

1 認識大資料

大資料探勘認識資料

我對於大資料的認識

對大資料的簡單認識

1 認識大資料

大資料探勘 認識資料

我對於大資料的認識

對大資料的簡單認識

相關推薦

大資料探勘認識資料