第一章 大資料學習之大資料概述

2021-08-16 11:41:05 字數 821 閱讀 8916

大資料4個特性:大量化(資料量大)、多樣化(資料型別多)、快速化(處理速度快)、價值化(價值密度低)

科學研究4種正規化:實驗、理論、計算、資料

大資料關鍵技術兩大核心:

分布式儲存 :gfs/hdfs、big table、hbase、nosql(鍵值、列族、圖形、文件資料庫)、newsql(sql azure)

分布式處理 :mapreduce

大資料計算模式:

批處理計算:針對大規模資料的批量處理

流計算:針對流資料的實時計算

圖計算:針對大規模圖結構資料的處理

查詢分析計算:大規模資料的儲存管理和查詢分析

雲計算:

1、雲計算概念:通過網際網路為使用者提供所需的各種it資源

2、雲計算3種典型服務模式:iaas(基礎設施即服務)、paas(平台即服務)、saas(軟體即服務)

3、雲計算關鍵技術:虛擬化、分布式儲存、分布式計算、多租戶

4、雲計算資料中心:地質穩定,洪水,涼爽,電能高

物聯網:物物相連的網路

從技術架構上講:物聯網可分為四層:感知層、網路層、處理層和應用層

大資料技術:

1、資料本身:4個v

2、資料處理技術:分布式儲存、分布式管理

大資料、雲計算和物聯網三者之間既有區別又有聯絡。

大資料繼承與雲計算,為雲計算提供用武之地;

與計算為大資料提供技術基礎;

物聯網是大資料的重要**;

大資料為物聯網資料分析提供技術支撐;

物聯網為雲計算提供廣闊的應用空間;

雲計算為物聯網提供海量資料儲存能力。

大資料第一章複習

大資料4 v 資料量大 volume 資料型別繁多 variety 處理速度快 velocity 價值密度低 value 大資料對思維方式的影響 全樣而非抽樣 效率而非精確 相關而非因果。大資料的基本處理流程 資料採集 儲存 分析和結果呈現。資料採集與預處理 利用etl工具將分布的 異構資料來源中的...

大資料之路 第一章 總述

接下來,我們以阿里巴巴大資料架構圖來介紹。大資料系統體系分為資料採集層 資料計算層 資料服務層和資料應用層。簡單介紹一下這四層的具體作用和使用到的技術 講述的內容包含但不限於阿里巴巴的知識 1 資料採集層 資料採集的物件主要是傳統資料庫資料和日誌資料。一般公司採用sqoop開源工具採集傳統資料庫資料...

自學大資料系列 第一章 初識Hadoop

1 資料現狀 2006年數字世界 digital universe 專案統計得出全球資料總量為0.18zb,2011年將達到1.8zb 1zb 1 000eb 1 000 000pb 1 000 000 000tb 資料增長速度也在加快。2 資料的儲存 資料讀取速度慢 在硬碟容量不斷提公升的同時,資...