大資料處理框架 Hadoop簡單了解

大資料：收集、整理和處理大容量資料集，並從中獲得見解所需的非傳**略和技術的總稱。

人工智慧：

圖靈測試：指人和機器在被隔開的情況下，通過一些裝置向機器隨意提問，經過多次測試後，如果有超過30%的人不能確定被測試者是人還是機器，那麼這台機器就通過了測試，並被認為具有人類智慧型。

如果乙個東西具有學習、分類和**的能力，那麼我們就認為這個東西是智慧型的。

雲計算：將計算、服務和應用作為一種公共設施提供給公眾，使人們能夠像使用水、電、煤和**那樣使用計算機資源。

分布式資料庫系統：物理上分散而邏輯上集中的資料庫系統。

大資料處理系統：老葉30年前是個擺地攤的，每天回家，一支筆，一張香菸紙盒就能把賬記了；後來攤子大了，就買了乙個計算器，每天在計算器、紙和筆的幫助下，把賬記了；再後來，老葉開了乙個小超市，用起了excel和word來管理賬單；又過了幾年，老葉開了乙個大超市，資訊處理工具也有了質的飛躍，招了幾個程式設計師，用上了財務管理系統等等；現在大資料處理系統來了（hadoop、spark、storm、hbase、 elasticsearch、zookeeper……），老葉終於也是換炮彈了。

大資料處理框架：

hdfs(hadoop distributed file system-分布式檔案系統) 負責海量資料的儲存，集群中的角色主要有namenode/datanode/secondarynamenode

namenode有副本secondnode，datanode也可以建立多個副本數（一般2份）

yarn（yet another resource negotiator 另一種資源協調者）是一種新的hadoop資源管理器，負責海量資料運算時的資源排程，集群中的角色主要有resourcemanager/nodemanager

mapreduce(應用程式開發包)

hive蜂巢資料倉儲使用hql語言查詢，最終被轉化為map/reduce,但是它不能夠進行互動查詢，只能夠在hadoop在批量的執行；

hbasesql介面是一種key/value系統，在hdfs之上，能夠被實時執行，不是map/reduce任務；

zookeeper(分布式協調器) 分布式應用程式可以基於zookeeper實現諸如資料發布/訂閱、負載均衡、命名服務、分布式協調/通知、集群管理、master選舉、分布式鎖和分布式佇列等功能

在zookeeper中，有三種角色（leader，follower，obsever）乙個zookeeper集群同一時刻只會有乙個leader，其他都是follower或observer

目前不收費的hadoop版本主要有三個（apache版本、cdh版本和hdp版本）

cdh (cloudera distribution) 只有兩個系列的版本：cdh3和cdh4

apache的版本則比較混亂

僅流處理框架：storm samza

混合框架：spark flink

hadoop web manager

hue --> hadoop ecosystem

clouera manager --> hadoop cluster

ambari --> hapdoop ecosystem manager suite

大資料處理框架 Hadoop簡單了解

Hadoop大資料處理

大資料處理架構Hadoop

大資料處理

大資料處理框架 Hadoop簡單了解

Hadoop大資料處理

大資料處理架構Hadoop

大資料處理

相關推薦