時代產物Hadoop

大資料是現在的熱門話題，雖然還處於初步的學習了解階段，不過也藉此機會寫一寫自己的認識。錯謬在所難免，重在參與嘛。

隨著網際網路的崛起，資料的傳播越來越快，資料的數量越來越多，資料的容量越來越大，人們正在步入乙個大資料時代。在這樣的大背景下，不同的大資料處理工具應運而生，其中的佼佼者有：storm、spark、hadoop。據一些對大資料比較熟悉的先行者說，他們三者並不是相互取代，而是各有自己的面向，各有自己的優點，甚至於三者完全可以攜手同行。storm重在分布式的實時性計算，spark重在記憶體集群快速計算，hadoop重在批處理計算。「三劍客」可謂勢頭強勁，但僅從它們三者的知名度來看，知名度最高的當屬hadoop。何以見得？現在很多企業、很多培訓機構一提到大資料，言必稱hadoop，它的影響力以及應用普及率由此可見一斑。

大資料是時代發展的必然產物，大資料處理工具又何嘗不是時代發展的必然產物？伴隨資料規模的增長，原有的硬體設施對其處理顯得力不從心、捉襟見肘。簡單的應對之道是購買更高處理能力的硬體，也就是簡單地向上擴充套件。但是簡單是要付出相應代價的：一是成本高，更高效能的伺服器價錢昂貴，而且當資料規模又達到新購伺服器的極致時，會再次出現瓶頸。如果單純地以新換舊會使成本居高不下；二是擴充套件不靈活，這種擴充套件方式沒有針對問題的實質，當資料規模再次超出新伺服器處理能力後，沒有很好的擴充套件機制來靈活地解決問題。另外一種應對之道，我們稱之為向外擴充套件。所謂的向外擴充套件就是硬體的「橫向」擴充套件，將原來一台伺服器擴充套件成n臺，這樣減小單一伺服器承受的壓力，同時處理能力得到相應的提公升。這種擴充套件方式，增加硬體的成本遠低於向上擴充套件，並且靈活性大大增加。當然多機之間資料的處理、傳輸、互動都造成整體架構的難度、複雜度大大增加。這時以hadoop為代表的大資料處理工具魅力登場，適時解決了架構方面帶來的問題：海量儲存、分布式處理、快速資料訪問、失效轉移、可靠性、可擴充套件性，成為一套公認的、行之有效的開源大資料解決方案。

說到這裡，我們也順帶看一下hadoop

是如何產生的。

doug cutting

在研究搜尋引擎過程中，急需海量資訊處理的解決方案，在此過程中他看到

google

發表的gfs

與mapreduce

的**，讓他產生了強大的共鳴，並動手完成的

hadoop

的編寫。此舉著實讓人欽佩不已，僅就**就可以實現出如此劃時代的重磅框架！我們也看過不少**，可我們根本沒法產出讓人眼前一亮的乙個解決方案。

本書試讀部分有提到，hadoop

的核心元件除了

hdfs

（分布式檔案系統）、

mapreduce

（分布式並行處理程式設計模型）以外，還有：

hbase

（用於對大量資料進行讀寫的

nosql

列資料庫）、

zookeeper

（分布式協調服務）、

oozie

（可擴充套件的

workflow

系統）、

pig（大規模資料分析平台）、

hive

（用於大資料查詢的類

sql高階語言）、

sqoop

（用於關係型資料與

hadoop

之間移動資料的連通工具）、

flume

（用於從單機上將大量資料收集、聚合並移動到

hdfs

的分布式服務）。另外，還有諸如：

whirr

、mahout

、bigtop

、ambari

等諸多功能與元件加入。可以看出，現在

hadoop

已經形成了有凝聚力、成規模的大型生態系統。這個生態系統協作發展，在金融、社交、商業、交通、旅遊乃至於軍事情報等諸多領域，以其「高可靠、高擴充套件、高效能、高容錯、低成本」的特性，發揮出巨大的作用。

在目前這個大資料時代，我們也應該緊跟時代步伐，與時俱進了解與學習這方面的知識。

時代產物Hadoop

大資料時代之hadoop 了解hadoop資料流

創新應用摩瓦語音微博語音時代的產物！

未來大資料時代，Hadoop會被Spark取代

時代產物Hadoop

大資料時代之hadoop 了解hadoop資料流

創新應用 摩瓦語音微博 語音時代的產物！

未來大資料時代，Hadoop會被Spark取代

相關推薦

創新應用摩瓦語音微博語音時代的產物！