大資料應用開發 大資料的概念

2021-10-04 23:24:53 字數 1031 閱讀 9073

維基百科定義:

大資料是指利用常用軟體工具捕獲,管理和處理資料所耗時間超過可容忍時間的資料集。

flume可以進行流式日誌資料的收集

sqoop可以互動關係型資料庫,進行匯入匯出資料

使用爬蟲技術,可以在網上爬取海量網頁資料

1.1 概念:

離線批處理,是指對海量歷史資料進處理和分析,生成結果資料,供下一步資料應用使用的過程。

離線批處理對資料處理的時延要求不高,但是處理的資料量較大,占用的計算儲存資源較多,通常通過mr作業、spark作業或者hql作業實現。

1.2 特點:

1.3 流程圖

2.1 概念:

2.2 核心訴求

2.3流程圖

3.1 概念:

實時流處理,通常是指對實時資料來源進行快速分析,迅速觸發下一步動作的場景。實時資料對分析處理速度要求極高,資料處理規模巨大,對cpu和記憶體要求很高,但是通常資料不落地,對儲存量要求不高。實時處理,通常通過structured streaming或者flink任務實現。

3.2 訴求:

3.3 流程圖

4.1概念:

在資料慢慢呈現資料處理量大、資料處理時延低、資料處理格式多樣的要求下,基於模組化儲存的資料倉儲重要性日益增加,但同時也帶來了新的問題。

隨著精準營銷、客戶畫像、網際網路平台等業務的上線,需要引入非結構化資料,以及提公升對實時資料的計算處理能力,需要建立大資料平台滿足上述業務需求。

4.2訴求

4.3流程圖

大資料概念

在網際網路技術發展到現今階段,大量日常 工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!換個角度說,大資料是 1 有海量的資料 2 有對海量資料進行挖掘的需求 3 有對...

大資料概念

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs hadoop distributed file system 基於google發布的gfs 設計開發,執行在通用硬體上的分布式檔案系統。除具備其它分布式檔案系統相同特性外,還有自己的特性 高容錯...

大資料時代 大資料的應用

大資料應用的關鍵,也是其必要條件,就在於 it 與 經營 的融合,當然,這裡的經營的內涵可以非常廣泛,小至乙個零售門店的經營,大至乙個城市的經營。以下是我整理的關於各行各業,不同的組織機構在大資料方面的應用的案例,在此申明,以下案例均 於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。通訊行業 ...