Hadoop簡介 4V特徵和3個核心

2021-10-06 17:49:22 字數 509 閱讀 7757

固有特徵

時效性:一段時間在某一時間段內產生的已知的資料,並且決策在哪些時間內具有價值的屬性。

不可變性:已產生的資料不會改變,我們將大資料的變化視為新資料條目的產生,而不是現有條目的更新。

hadoop三個核心

分布式檔案系統 hdfs—解決大資料的儲存

分布式計算框架 mapreduce—解決大資料計算

分布式資源管理系統 yarn

hadoop優點:

1.高擴充套件性,可伸縮:根據需要新增新節點,不需要改變現有的資料分布,也不需要更改作業和應用程式。

2.可靠性:能自動維護資料的多份複製,並且在任務失敗後能自動地重新部署計算任務。當丟失乙個節點時,資源管理器會將任務重發布到另乙個空閒位置,可以在不中斷地情況下繼續處理。

3.成本低:hadoop通過普通廉價地機器組成伺服器集群來分發以及處理資料,以至於成本很低。

4.無共享架構:不同機器上的不同分塊的資料處理互不干擾。

5.開源,社群活躍。

機器學習導論 大資料的4v特徵

一 資料量大 一 tb pb zb 二 hdfs分布式檔案系統 二 資料種類多 一 結構化資料 mysql為主的儲存和處理 二 非結構化資料 1 影象 音訊等 2 用hdfs mr hive等來分析 三 半結構化資料 1 xml html形式 2 用hdfs mr hive spark等來分析 三 ...

大資料有4V的特徵,是什麼意思?

大資料的4v,就是 容量大volume 多樣性variety 價值高value 速度快velocity 以海洋為例 a.海洋中水的量非常大 b.海水是多樣的,太平洋的海水和大西洋的海水是有區別的,不同地方海水裡面蘊含的物質 生活的物種都有不同 c.海洋為全人類帶來的好處太多了,人們利用海洋,開發海洋...

uvc和v4l2簡介uvc和v4l2簡介

對這塊不是特別理解,看了幾篇部落格,還是一知半解,先記錄下,以後有機會深入後,再來更新 首先介紹兩個概念 uvc 最新的uvc版本為uvc 1.5,由usb if usb implementers forum 定義包括基本協議及負載格式 1 2 這是wikipedia的解釋。v4l2 從兩個的介紹也...