大資料處理架構Hadoop

2021-09-12 21:32:02 字數 698 閱讀 8555

hive 資料倉儲:把sql語句轉換成mapreduce作業

pig流資料處理:乙個基於hadoop的大規模資料分析平台提供類似sql的查詢語言pig latin

oozie作業流排程系統:hadoop上的工作流管理系統

zookeeper分布式協調服務:提供分布式協調一致性服務

hbase列族資料庫:hadoop上的非關係型的分布式資料庫(隨機讀寫)

flume 日誌收集分析框架:乙個高可用的,高可靠的分布式的海量日誌採集、聚合和傳輸的系統

sqoop 資料匯入匯出:用於hadoop與傳統資料庫之間進行資料傳遞(關係型資料庫到hdfs、hbase、hive互導)

yarn框架:資源管理和排程器

mapreduce:專門做離線計算和批處理

tze:把很多的mapreduce作業進行分析優化構建成有向無環圖

spark:邏輯與mapreduce是一樣的,也是用reduce函式去做資料處理(區別:spark基於記憶體處理,mapreduce基於磁碟處理的,比mapreduce高乙個數量級)

ambari 部署工具:hadoop快速部署工具支援apache hadoop集群的**、管理和監控

本文筆記來自中國大學mooc 廈門大學林子雨老師的《大資料原理與應用》

Hadoop大資料處理

hadoop大資料處理 以大資料處理系統的三大關鍵要素 儲存 計算 與 容錯 為起點,深入淺出地介紹了如何使用hadoop這一高效能分布式技術完成大資料處理任務。本書不僅包含了使用hadoop進行大資料處理的實踐性知識和示例,還以 並茂的形式系統性地揭示了hadoop技術族中關鍵元件的執行原理和優化...

大資料處理架構如何

hadoop 是乙個開源的框架,主要處理 儲存和分析大量分布式的非結構化資料。他的核心是分布式檔案系統 hdfs 和mapreduce 圖一 hadoop hadoop 將資料敲碎成多個部分,每個部分都可以同時進行處理和分析。hadoop 內儲存的預設檔案是 hadoop 分布式檔案系統。由於類似的...

大資料處理框架 Hadoop簡單了解

大資料 收集 整理和處理大容量資料集,並從中獲得見解所需的非傳 略和技術的總稱。人工智慧 圖靈測試 指人和機器在被隔開的情況下,通過一些裝置向機器隨意提問,經過多次測試後,如果有超過30 的人不能確定被測試者是人還是機器,那麼這台機器就通過了測試,並被認為具有人類智慧型。如果乙個東西具有學習 分類和...