大資料基礎

2021-10-10 11:29:13 字數 2435 閱讀 8638

三次浪潮:資訊處理,資訊傳輸,資訊**

運營式系統階段,使用者原創內容階段,感知式系統階段

萌芽期,成熟期,大規模應用期(2023年後)

大資料概念

資料量大(volume)

資料型別多(vareity):結構化資料和非結構化資料

處理速度快(velocity)

價值密度低(value)

大資料影響

科學研究

實驗科學,理論科學,計算科學,資料密集型科學

思維方式

社會發展

新的決策方式,促進資訊科技與各行業的深度融合,推動新技術與新應用的不斷湧現

就業市場

大資料分析

人才培養

資料科學家,資料分析基礎能力

大資料應用

網際網路,生物醫學,物流,其它領域

大資料關鍵技術

資料採集與預處理

利用etl工具將分布的、異構資料來源中的資料(比如關係資料,平面資料檔案等),抽取到中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集中,成為聯機分析處理,資料探勘的基礎,可以利用日誌採集工具(flume,kafka等)把實時採集的資料作為流計算系統的輸入,進行實時處理分析

資料儲存與管理

利用分布式檔案系統、資料倉儲、關聯式資料庫、nosql資料庫、雲資料庫等,實現對結構化、半結構化和非結構化海量資料的儲存和管理

資料處理與分析

利用分布式並行程式設計模型和計算框架,結合機器學習和資料探勘演算法,實現對海量資料的處理和分析,對分析結果進行視覺化呈現

資料安全和隱私保護

構建隱私資料保護體系和資料安全體系,有效保護個人隱私和資料安全

大資料計算模式

批處理計算

針對大規模資料的批量處理:mapreduce、spark等

spark式乙個針對超大資料集合的低延遲的集群分布式計算系統

mapreduce作為單輸入、兩階段、粗粒度並行的分布式計算框架

流計算針對流資料的實時計算:storm、s4、flume、streams、puma、dstream,supermario,銀河流資料處理平台等

圖計算針對大規模圖結構資料的處理:pregel,graphx,giraph,powergraph,hama,goldenrb等

查詢分析計算

大規模資料的儲存管理和查詢分析:dremel,hive,cassendra,impala等

大資料產業

it基礎設施層

提供硬體,軟體,網路等基礎設施以及提供諮詢,規劃和系統整合服務的企業,提供資料中心解決方案的ibm,惠普和戴爾等,提供儲存解決方案的emc,提供虛擬化管理軟體的微軟,思傑,sun,redhat等

資料來源層

資料管理層

分布式檔案系統

etl工具(informatica,datastage,kettle等)

資料庫資料倉儲(oracle,mysql,sql server,hbase,greenplum)

資料分析層

分布式計算框架,統計分析軟體spss和sas,資料探勘工具weka、資料視覺化工具tbleau,bi工具(microstrategy,cognos,bo)等

資料平台層

資料應用層

大資料處理架構hadoop

hadoop的特性

hadoop生態系統

hadoop安裝與使用

大資料與雲計算、物聯網的關係

雲計算的概念

雲計算代表了以虛擬化技術為核心、以低成本為目標的、動態可擴充套件的網路應用基礎設施

三種服務模式:iaas(基礎設施即服務),paas(平台即服務),saas(軟體即服務)

包含公有雲、私有雲以及混合雲

雲計算關鍵技術

虛擬化:將一台計算機虛擬為多台邏輯計算機,可以是硬體也可以是軟體

分布式儲存:滿足大型,分布式,對大量資料進行訪問的應用的需求

谷歌後來又以gfs為基礎開發了分布式資料管理系統bigtable,稀疏、分布、持續多維度的排序對映陣列,適合於非結構化資料儲存的資料庫,具有高可靠性,高效能,可伸縮等特點,在鏈家pc伺服器上搭建起大鬼模儲存集群,hbase是針對bigtable的開源實現

分布式計算

多租戶:資料隔離,客戶化配置,架構擴充套件,效能定製

物聯網的概念

感知層、網路層、處理層和應用層

物聯網關鍵技術

識別和感知技術,網路和通訊技術,資料探勘和融合技術

大資料、雲計算與物聯網相輔相成

雲計算為大資料提供了技術基礎,大資料為雲計算提供用武之地

雲計算為物聯網提供海量資料儲存能力,物聯網為雲計算技術提供廣闊的應用空間

物聯網是大資料的重要**,大資料技術為物聯網資料分析提供支撐

大資料關鍵技術

資料採集

資料儲存與管理

資料處理與分析

資料隱私與安全

大資料計算模式

批處理計算

流計算圖計算

查詢分析計算

大資料基礎

hadoop是提供分布式的儲存 乙個檔案被拆分成很多個快,並且以副本的反式儲存在各個節點中 和計算。分布式檔案系統 hdfs實現將檔案分布式儲存在很多的伺服器上。hdfs特點 擴充套件性 容錯性 海量數量儲存 工作機制 將檔案切分為指定大小的資料塊並以多副本儲存在多個機器上。資料切分 多副本 容錯等...

大資料 Centos基礎

簡單學學常見的一些指令。首先,我們在vmware中安裝乙個centos的虛擬機器,安裝完畢之後是沒有網路,我們需要配置下網路。networkking yes hostname hadoop 主機名稱 底下的subnet ip和subnet mask是後邊配置需要的。檢視 修改ifcfg ens33新...

大資料基礎問題

1 什麼是大資料?大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。2 什麼是大資料技術?哪些技術適應於大資料?大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式...