大資料處理框架 Hadoop簡單了解

2021-10-12 08:39:28 字數 1840 閱讀 2160

大資料:收集、整理和處理大容量資料集,並從中獲得見解所需的非傳**略和技術的總稱。

人工智慧:

圖靈測試:指人和機器在被隔開的情況下,通過一些裝置向機器隨意提問,經過多次測試後,如果有超過30%的人不能確定被測試者是人還是機器,那麼這台機器就通過了測試,並被認為具有人類智慧型。

如果乙個東西具有學習、分類和**的能力,那麼我們就認為這個東西是智慧型的。

雲計算:將計算、服務和應用作為一種公共設施提供給公眾,使人們能夠像使用水、電、煤和**那樣使用計算機資源。

分布式資料庫系統:物理上分散而邏輯上集中的資料庫系統。

大資料處理系統:老葉30年前是個擺地攤的,每天回家,一支筆,一張香菸紙盒就能把賬記了;後來攤子大了,就買了乙個計算器,每天在計算器、紙和筆的幫助下,把賬記了;再後來,老葉開了乙個小超市,用起了excel和word來管理賬單;又過了幾年,老葉開了乙個大超市,資訊處理工具也有了質的飛躍,招了幾個程式設計師,用上了財務管理系統等等;現在大資料處理系統來了(hadoop、spark、storm、hbase、 elasticsearch、zookeeper……),老葉終於也是換炮彈了。

大資料處理框架:

hdfs(hadoop distributed file system-分布式檔案系統) 負責海量資料的儲存,集群中的角色主要有namenode/datanode/secondarynamenode

namenode有副本secondnode,datanode也可以建立多個副本數(一般2份)

yarn(yet another resource negotiator 另一種資源協調者)是一種新的hadoop資源管理器,負責海量資料運算時的資源排程,集群中的角色主要有resourcemanager/nodemanager

mapreduce(應用程式開發包)

hive蜂巢 資料倉儲 使用hql語言查詢,最終被轉化為map/reduce,但是它不能夠進行互動查詢,只能夠在hadoop在批量的執行;

hbasesql介面 是一種key/value系統,在hdfs之上,能夠被實時執行,不是map/reduce任務;

zookeeper(分布式協調器) 分布式應用程式可以基於zookeeper實現諸如資料發布/訂閱、負載均衡、命名服務、分布式協調/通知、集群管理、master選舉、分布式鎖和分布式佇列等功能

在zookeeper中,有三種角色(leader,follower,obsever) 乙個zookeeper集群同一時刻只會有乙個leader,其他都是follower或observer

目前不收費的hadoop版本主要有三個(apache版本、cdh版本和hdp版本)

cdh (cloudera distribution) 只有兩個系列的版本:cdh3和cdh4

apache的版本則比較混亂

僅流處理框架:storm samza

混合框架:spark flink

hadoop web manager

hue --> hadoop ecosystem

clouera manager --> hadoop cluster

ambari --> hapdoop ecosystem manager suite

Hadoop大資料處理

hadoop大資料處理 以大資料處理系統的三大關鍵要素 儲存 計算 與 容錯 為起點,深入淺出地介紹了如何使用hadoop這一高效能分布式技術完成大資料處理任務。本書不僅包含了使用hadoop進行大資料處理的實踐性知識和示例,還以 並茂的形式系統性地揭示了hadoop技術族中關鍵元件的執行原理和優化...

大資料處理架構Hadoop

hive 資料倉儲 把sql語句轉換成mapreduce作業 pig流資料處理 乙個基於hadoop的大規模資料分析平台提供類似sql的查詢語言pig latin oozie作業流排程系統 hadoop上的工作流管理系統 zookeeper分布式協調服務 提供分布式協調一致性服務 hbase列族資料...

大資料處理

大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...