《大資料管理 概念 技術與挑戰》讀後總結

2022-10-02 07:09:09 字數 1084 閱讀 9060

「池塘捕魚」和「大海捕魚」作模擬:

運營式系統階段

該階段資料是伴隨運營活動產生並記錄在資料庫中

使用者原創內容階段

web2.0時代。以部落格、微博為代表的新型社交網路出現,其次是智慧型手機、平板電腦為代表的新型移動裝置的出現

感知式系統階段

遍布社會各個角落的感測器裝置產生新資料

流處理的基本理念:資料的價值隨著時間的流逝不斷減少,因此應盡可能快地對最新的資料做出分析並給出結果(實時處理)。

典型代表:twitter的storm、yahoo的s4和linkedin的kafka等

基本理念:先儲存後處理

典型代表:google的mapreduce

過程:從多樣性的資料中提取出關係和實體,同時需要對資料進行清洗保證質量和可信性,經過關聯和聚合之後採用統一定義的結構來儲存。

分類:基於物化或etl方法的引擎、基於聯邦資料庫或中介軟體方法的引擎、基於資料流方法的引擎及基於搜尋引擎的方法

視覺化技術

互動式資料分析過程

大資料價值的完整體現需要多種技術的協同

典型代表:google的gfs(google file system)、**的tfs(tao file system)等

採用mapreduce並行技術優化多值查詢:maptask各部分的並行查詢來提高效率

採用索引技術優化多值查詢:多維索引

典型代表:google的pregel圖計算模型,用於圖的計算。核心思想源於著名的bsp計算模型

實時處理的模式選擇中:

流處理模式

批處理模式

二者融合

hadoop是目前最流行的大資料處理平台

廣泛的異構型

資料質量

資料處理的實時性

動態變化環境中索引的設計

先驗知識的缺乏

集群中不同機器的硬體異構型帶來大資料處理難題

新硬體可能帶來的變革

從設計學的角度來看,易用性表現為:易見(easy to discover)、易學(easy to learn)和易用(easy to use)。則有3個基本原則:

視覺化原則(visibility)

反饋原則(feedback)

大資料管理技術 軟體常見埠彙總

2 spark部分 幾個重要的埠彙總 總結 按埠號公升序排列 2181 zookeeper的rpc埠號 6379 redis的埠號 7077 spark基於standalone的提交任務的埠號 8020 高可用訪問資料rpc 8080 spark的webui的埠號 8080 master的webui...

大資料融合技術 問題與挑戰

本文為 大資料融合研究 問題與挑戰 的總結。資料的特點 資料湖 資料整合的物件,即資料與知識的複合體。傳統的關係型資料是先有模式 表 再有資料,而資料湖是先有資料再有模式。大資料融合存在的問題 普遍採用3v 海量 高速 型別多樣 特性下的整合技術。關鍵技術 模式 本體對齊 利用屬性名稱 型別 值的相...

Hadoop基本概念與資料管理策略

快 block hdfs的檔案被分成塊進行儲存,hdfs塊的預設大小為64m,塊是檔案儲存處理的邏輯單元 namenodenamenode是管理節點,存放檔案元資料,元資料報含以下兩個部分 檔案與資料塊的對映表 資料塊資料節點的對映表 datenodedatenode是hdfs的工作節點,存放資料塊...