大資料技術原理與應用筆記(1) 大資料概述

2021-09-19 22:51:15 字數 850 閱讀 6062

《大資料技術與原理》課程筆記

目錄

1.1大資料概念

1.2資料產生方式

1.3技術支撐

1.4大資料的影響

1.5大資料的關鍵技術

1.6大資料的計算模式

(1)資料量大/「大量化」

(2)資料型別繁多/「多樣化」

10%結構化資料,90%非結構化資料

(3)處理速度快/「快速化」

1秒定律——秒級決策

(4)價值密度低,商業價值高/「價值化」

運營式系統階段——>使用者原創內容階段——>感知式系統階段

感知式系統階段也就是物聯網的大規模普及,物聯網的迅速發展讓大資料最終到來。

(1)儲存裝置容量不斷增大

(2)cpu處理能力大幅提公升

(3)網路頻寬不斷增加

(1)科學研究正規化的改變

實驗——>理論——>計算——>資料

資料研究正規化和其他正規化的區別:一開始並不清楚問題所在,通過大資料分析發現問題(問題發現);而不像以前,知道是什麼問題,我們去找答案(答案查詢)。

(2)思維方式的改變

(1)大資料技術的不同層面及其功能

(2)大資料核心技術

大資料計算模式

解決問題

代表產品

批處理計算

針對大規模資料的批處理

mapreduce、spark

流計算針對流資料的實時計算

storm、s4

圖計算針對大規模圖結構資料的處理

pregel、graphx

查詢分析計算

大規模資料的儲存管理和查詢分析

dremel、hive

大資料技術原理與應用 筆記

大資料 思路的轉變 全樣而非抽樣 效率而非精確 相關而非因果 分布式儲存 和 分布式處理 解決了 分布式儲存 分布式處理 虛擬化和多租戶 yarn 簡稱 樣 作用是起到 排程作用 因為在版本1時 mapreduce 即處理 又負責排程 版本2進行拆分 集群資源管理 解決海量資料分布式儲存問題 幾個重...

大資料技術與應用 Redis

1.基礎知識 redis是用c語言開發的乙個開源的高效能鍵值對 key value 資料庫。它通過提供多種鍵值資料型別來適應不同場景下的儲存需求,目前為止redis支援的鍵值資料型別如下字串 列表 lists 集合 sets 有序集合 sorts sets 雜湊表 hashs wget步驟如下 將r...

大資料技術與應用學習日誌

大資料定義 大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案系統 分布式資料庫 雲計算平台 網際網路和可擴充套件的儲存系統。最小的基本單位是bit,按順序給出所有單位 bit byte kb mb gb tb ...