大資料學習之一 了解簡單概念

2022-08-19 19:48:11 字數 1192 閱讀 1574

1.大資料是什麼?特點

大資料:是一種規模非常大的,在分析、管理、儲存和獲取等方面都超出了傳統的資料庫軟體所具有的功能處理範圍的巨大資料的調集。

特徵:1.海量的資料規模(volume)

2.資料型別多種多樣(variety)

3.快速的資料流轉和動態的資料體系(velocity)

4.巨大的資料價值(value)

2.資料倉儲是什麼?datawarehouse

資料倉儲,英文名稱data warehouse,是面向主題的、整合的、穩定的。面向時間的資料集合。是單個資料儲存。

資料倉儲中有oltp和olap。

oltp(on-line transaction processing)聯機事務處理主要是執行基本日常的事務處理。例如銀行交易。特點:

①實時性要求高。②資料量不是很大,及時做資料處理與轉移。③對確定性的的資料進行訪問。④高併發。

olap(on-line analytical processing)是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。例如複雜的動態的報表系統。

①實時性要求不高。②資料量大,動態查詢。③將使用者所有關心的維度資料,存入對應資料平台。

3. elt(extract  transform load):抽取、轉換、載入。

etl工作的實質就是從各個資料來源提取資料,對資料進項轉換,並最終載入填充資料到資料倉儲維度建模後的表中。

①抽取:根據資料倉儲主題、主題域確定需要從應用資料庫中提取的數。

②轉換:指對提取好了的資料的結構進行轉換,以滿足目標資料倉儲模型的過程,此外,轉換過程也負責資料質量工作,也稱為資料清洗。

③載入:將已經提取好了,轉換後保證資料質量的資料載入到目標資料倉儲。載入分為首次載入和重新整理載入。

資料分析與資料探勘的區別:

資料分析:簡單來說,資料分析就是對資料進行分析。是指根據分析目的,用適當的統計分析方法及工具,對收集來的資料進行處理與分析,提取有價值的資訊,發揮資料的作用。實現了現狀分析、原因分析、**分析的作用。

資料探勘:資料探勘是指從大量的資料中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的資訊和知識的過程。實現了分類、聚類、關聯和**的作用。

hadoop是什麼?

初步了解大資料概念

馬上要進入研究生二年級了,目前在實驗室用聲訊號做室內定位方向,但是個人並不看好,碩士畢業並不打算讀博,考慮到以 知乎上看到一張大資料的全域性概念圖,覺得很好,放上來收藏。結構化資料 即存放在資料庫裡,可以用二維表結構來邏輯表達和實現的資料大資料概念引出的國內的一些細分的領域 bi 概念 bi,bus...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...

大資料是什麼?1分鐘了解大資料的概念!

大資料本身是乙個抽象的概念。從一般意義上講,大資料是指無法在有限時間內用常規軟體工具對其進行獲取 儲存 管理和處理的資料集合。目前,業界對大資料還沒有乙個統一的定義,但是大家普遍認為,大資料具備volume velocity variety和value四個特徵,簡稱 4v 即資料體量巨大 資料速度快...