對「大資料」的理解

2021-08-10 05:00:47 字數 1082 閱讀 1156

架構挑戰:

1、對現有資料庫管理技術的挑戰。

2、經典資料庫技術並沒有考慮資料的多類別(variety)、sql(結構化資料查詢語言),在設計的一開始是沒有考慮到非結構化資料的儲存問題。

3、實時性技術的挑戰:一般而言,傳統資料倉儲系統,bi應用,對處理時間的要求並不高。因此這類應用通過建模,執行1-2天獲得結果依然沒什麼問題。但實時處理的要求,是區別大資料應用和傳統資料倉儲技術、bi技術的關鍵差別之一。

4、網路架構、資料中心、運維的挑戰:隨著每天建立的資料量**性的增長,就資料儲存來說,我們能改進的技術卻不大,而資料丟失的可能性卻不斷增加。如此龐大的資料量儲存就是首先面臨的非常嚴峻的問題,硬體的更新速速將是大資料發展的基石,但效果確實不甚理想。

分析技術:

1、資料處理:自然語言處理技術(nlp)

2、統計和分析:a/b test、top n排行榜、地域佔比、文字情感分析

3、資料探勘:關聯規則分析、分類、聚類

4、模型**:**模型、機器學習、建模**

儲存:

1、結構化資料:海量資料的查詢、統計、更新等操作效率低

3、半結構化資料:轉換為結構化資料儲存、按照非結構化儲存

解決方案:

1、儲存:hdfs、hbase、hive、mongodb等

2、平行計算:mapreduce技術

3、流計算:twitter的storm和yahoo的s4

大資料與雲計算:

1、雲計算的模式是業務模式,本質是資料處理技術

2、資料是資產,雲為資料資產提供儲存、訪問和計算

3、當前雲計算更偏重海量儲存和計算,以及提供的雲服務,執行雲應用。但是缺乏盤活資料資產的能力,挖掘價值性資訊和**性分析,為國家、企業、個人提供決策方案和服務,是大資料核心議題,也是雲計算的最終方向。

大資料平台架構:

我想這幅架構圖,對大資料處理的人來說,應該不是很陌生。

iaas::基礎設施即服務。基於 internet 的服務(如儲存和資料庫)。

paas:平台即服務。提供了使用者可以訪問的完整或部分的應用程式。

saas:軟體即服務。則提供了完整的可直接使用的應用程式,比如通過 internet管理企業資源。

大資料職業理解 對於大資料的認識和理解

精品資料 對於大資料的認識和理解 這學期選修了網路工程這門課程,當時是抱著掃盲的態度選的這門課程,給自己定的目標不高,只需要對一些基礎的概念和網路結構有些認識就可以,以免以後在人前談論的時候不至於成為 it文盲,被一些專業性的技術人員所嚇倒。事實證明,態度決定一切,由於自己剛開始設定的目標就比較低,...

對元資料的理解

元資料是用來描述資料的資料 data that describes other data 單單這樣說,不太好理解,我來舉個例子。下面是契訶夫的 套中人 中的一段,描寫乙個叫做瓦蓮卡的女子 她 年紀已經不輕,三十歲上下,個子高挑,身材勻稱,黑黑的眉毛,紅紅的臉蛋 一句話,不是姑娘,而是果凍,她那樣活躍...

java 對大資料的處理

最近做了乙個專案,資料量每次處理在兩百萬左右,這裡記錄一下最近開發時處理大量資料的思路,主要思路是將大資料化小,多次處理,不足之處還請指出。讀取檔案內容 while s br.readline null 清空集合 listbean.clear string value s.trim 將讀取到的內容放...