大資料的學習1（相關的概念）

目前大資料使用的系統是hadoop，這是乙個apache的開源專案。

hadoop有三個核心部分，分別是hdfs、mapreduce、yarn。hdfs實現儲存，mapreduce實現分析處理，yarn實現資源的排程。

hadoop的基本組成部分，hadoop 分布式檔案系統（hdfs）。hdfs 是一種資料分布式儲存機制，資料被儲存在計算機集群上。資料寫入一次，讀取多次。hdfs為 hbase 等工具提供了基礎。

mapreduce

hadoop的主要執行框架是 mapreduce，它是乙個分布式、並行處理的程式設計模型。mapreduce 把任務分為 map(對映)階段和 reduce(化簡)。開發人員使用儲存在hdfs 中資料，編寫 hadoop 的 mapreduce 任務。由於 mapreduce工作原理的特性， hadoop 能以並行的方式訪問資料，從而實現快速訪問資料。

yarn

yarn是hadoop2.0新增的系統，負責集群的資源管理和排程，使得多種計算框架可以執行在乙個集群中。

附上乙個比較詳細的hadoop生態圖，

hbase是hadoop database的意思。是乙個高可靠性、高效能、面向列、可伸縮、實時讀寫的分布式資料庫。

技術**了google的「bigtable」**。

google bigtable利用gfs作為其檔案儲存系統，hbase利用hadoop hdfs作為其檔案儲存系統；

google bigtable利用mapreduce來處理bigtable中的海量資料，hbase同樣利用hadoop mapreduce來處理hbase中的海量資料；

google bigtable利用 chubby作為協同服務，hbase利用zookeeper作為對應；

hive

hive是基於hadoop構建的一套資料倉儲分析系統，它提供了豐富的sql查詢方式來分析儲存在hadoop分布式檔案系統中的資料；

可以將結構化的資料檔案對映為一張資料庫表，並提供完整的sql查詢功能；

可以將sql語句轉換為mapreduce任務執行，通過自己的sql查詢分析需要的內容，使不熟悉mapreduce的使用者可以很方便地利用sql語言查詢、彙總和分析資料。

hive不適合用於聯機(online)事務處理，也不提供實時查詢功能。它最適合應用在基於大量不可變資料的批處理作業。

zookeeper

zookeeper是乙個分布式的，開放原始碼的分布式應用程式協調服務，是google的chubby乙個開源的實現，是hadoop和hbase的重要元件。zookeeper是以fast paxos演算法為基礎的。

pig

pig是類似於hive功能，國內使用的不多。

spark

spark是等同於mapreduce的乙個分析處理模組。其發展勢頭比較好，以後會逐漸的代替mapreduce。

大資料的學習1（相關的概念）

資料探勘學習之路 1 相關概念

深度學習 0 相關概念

MySQL資料庫一相關概念

大資料的學習1（相關的概念）

資料探勘學習之路 1 相關概念

深度學習 0 相關概念

MySQL資料庫一 相關概念

相關推薦

MySQL資料庫一相關概念