大資料的學習1(相關的概念)

2021-09-29 22:43:18 字數 1681 閱讀 6224

目前大資料使用的系統是hadoop,這是乙個apache的開源專案。

hadoop有三個核心部分,分別是hdfs、mapreduce、yarn。hdfs實現儲存,mapreduce實現分析處理,yarn實現資源的排程。

hadoop的基本組成部分,hadoop 分布式檔案系統(hdfs)。hdfs 是一種資料分布式儲存機制,資料被儲存在計算機集群上。資料寫入一次,讀取多次。hdfs為 hbase 等工具提供了基礎。

mapreduce

hadoop的主要執行框架是 mapreduce,它是乙個分布式、並行處理的程式設計模型。mapreduce 把任務分為 map(對映)階段和 reduce(化簡)。開發人員使用儲存在hdfs 中資料,編寫 hadoop 的 mapreduce 任務。由於 mapreduce工作原理的特性, hadoop 能以並行的方式訪問資料,從而實現快速訪問資料。

yarn

yarn是hadoop2.0新增的系統,負責集群的資源管理和排程,使得多種計算框架可以執行在乙個集群中。

附上乙個比較詳細的hadoop生態圖,

hbase是hadoop database的意思。是乙個高可靠性、高效能、面向列、可伸縮、 實時讀寫的分布式資料庫。

技術**了google的「bigtable」**。

google bigtable利用gfs作為其檔案儲存系統,hbase利用hadoop hdfs作為其檔案儲存系統;

google bigtable利用mapreduce來處理bigtable中的海量資料,hbase同樣利用hadoop mapreduce來處理hbase中的海量資料;

google bigtable利用 chubby作為協同服務,hbase利用zookeeper作為對應;

hive

hive是基於hadoop構建的一套資料倉儲分析系統,它提供了豐富的sql查詢方式來分析儲存在hadoop分布式檔案系統中的資料;

可以將結構化的資料檔案對映為一張資料庫表,並提供完整的sql查詢功能;

可以將sql語句轉換為mapreduce任務執行,通過自己的sql查詢分析需要的內容,使不熟悉mapreduce的使用者可以很方便地利用sql語言查詢、彙總和分析資料。

hive不適合用於聯機(online)事務處理,也不提供實時查詢功能。它最適合應用在基於大量不可變資料的批處理作業。

zookeeper

zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。zookeeper是以fast paxos演算法為基礎的。

pig

pig是類似於hive功能,國內使用的不多。

spark

spark是等同於mapreduce的乙個分析處理模組。其發展勢頭比較好,以後會逐漸的代替mapreduce。

資料探勘學習之路 1 相關概念

在同濟讀研期間,無意間選擇了資料倉儲和資料探勘作為研究方向,從此走上了漫漫bi之路。研究生畢業以後,抵制了外企的 因為無法做bi相關的專業工作 加入了上海電力下屬的it公司,從事電力營銷資料倉儲的建設,真正將知識轉化成生產力,自己也親身經歷如何實施大型資料倉儲,此後跳槽另一家民企,接觸了移動經營分析...

深度學習 0 相關概念

卷積核 3 3 3 前兩個 3是卷積核大小,後乙個是通道數,指定步長後滑動一次生成 乙個 x,y,1 假設有n個卷積核,這樣就生成 x,y,n 縮小大小,厚度增加 引數 n個卷積核 n 3 3 n 偏執 對於32 32 3的 28 28 64 卷積 28 28 64 14 14 64 池化 通常也有...

MySQL資料庫一 相關概念

資料庫 database 是按照資料結構來組織 儲存和管理資料的倉庫。每個資料庫都有乙個或多個不同的 api 用於建立,訪問,管理,搜尋和複製所儲存的資料。我們也可以將資料儲存在檔案中,但是在檔案中讀寫資料速度相對較慢。所以,現在我們使用關係型資料庫管理系統 rdbms 來儲存和管理大資料量。所謂的...