時代產物Hadoop

2021-06-25 11:21:10 字數 1868 閱讀 1998

大資料是現在的熱門話題,雖然還處於初步的學習了解階段,不過也藉此機會寫一寫自己的認識。錯謬在所難免,重在參與嘛。

隨著網際網路的崛起,資料的傳播越來越快,資料的數量越來越多,資料的容量越來越大,人們正在步入乙個大資料時代。在這樣的大背景下,不同的大資料處理工具應運而生,其中的佼佼者有:storm、spark、hadoop。據一些對大資料比較熟悉的先行者說,他們三者並不是相互取代,而是各有自己的面向,各有自己的優點,甚至於三者完全可以攜手同行。storm重在分布式的實時性計算,spark重在記憶體集群快速計算,hadoop重在批處理計算。「三劍客」可謂勢頭強勁,但僅從它們三者的知名度來看,知名度最高的當屬hadoop。何以見得?現在很多企業、很多培訓機構一提到大資料,言必稱hadoop,它的影響力以及應用普及率由此可見一斑。

大資料是時代發展的必然產物,大資料處理工具又何嘗不是時代發展的必然產物?伴隨資料規模的增長,原有的硬體設施對其處理顯得力不從心、捉襟見肘。簡單的應對之道是購買更高處理能力的硬體,也就是簡單地向上擴充套件。但是簡單是要付出相應代價的:一是成本高,更高效能的伺服器價錢昂貴,而且當資料規模又達到新購伺服器的極致時,會再次出現瓶頸。如果單純地以新換舊會使成本居高不下;二是擴充套件不靈活,這種擴充套件方式沒有針對問題的實質,當資料規模再次超出新伺服器處理能力後,沒有很好的擴充套件機制來靈活地解決問題。另外一種應對之道,我們稱之為向外擴充套件。所謂的向外擴充套件就是硬體的「橫向」擴充套件,將原來一台伺服器擴充套件成n臺,這樣減小單一伺服器承受的壓力,同時處理能力得到相應的提公升。這種擴充套件方式,增加硬體的成本遠低於向上擴充套件,並且靈活性大大增加。當然多機之間資料的處理、傳輸、互動都造成整體架構的難度、複雜度大大增加。這時以hadoop為代表的大資料處理工具魅力登場,適時解決了架構方面帶來的問題:海量儲存、分布式處理、快速資料訪問、失效轉移、可靠性、可擴充套件性,成為一套公認的、行之有效的開源大資料解決方案。

說到這裡,我們也順帶看一下hadoop

是如何產生的。

doug cutting

在研究搜尋引擎過程中,急需海量資訊處理的解決方案,在此過程中他看到

google

發表的gfs

與mapreduce

的**,讓他產生了強大的共鳴,並動手完成的

hadoop

的編寫。此舉著實讓人欽佩不已,僅就**就可以實現出如此劃時代的重磅框架!我們也看過不少**,可我們根本沒法產出讓人眼前一亮的乙個解決方案。

本書試讀部分有提到,hadoop

的核心元件除了

hdfs

(分布式檔案系統)、

mapreduce

(分布式並行處理程式設計模型)以外,還有:

hbase

(用於對大量資料進行讀寫的

nosql

列資料庫)、

zookeeper

(分布式協調服務)、

oozie

(可擴充套件的

workflow

系統)、

pig(大規模資料分析平台)、

hive

(用於大資料查詢的類

sql高階語言)、

sqoop

(用於關係型資料與

hadoop

之間移動資料的連通工具)、

flume

(用於從單機上將大量資料收集、聚合並移動到

hdfs

的分布式服務)。另外,還有諸如:

whirr

、mahout

、bigtop

、ambari

等諸多功能與元件加入。可以看出,現在

hadoop

已經形成了有凝聚力、成規模的大型生態系統。這個生態系統協作發展,在金融、社交、商業、交通、旅遊乃至於軍事情報等諸多領域,以其「高可靠、高擴充套件、高效能、高容錯、低成本」的特性,發揮出巨大的作用。

在目前這個大資料時代,我們也應該緊跟時代步伐,與時俱進了解與學習這方面的知識。

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...

創新應用 摩瓦語音微博 語音時代的產物!

在蘋果的語音助手siri發布之後,語音技術受到了業界人士的廣泛關注和熱捧,一夜之間幾乎所有應用都在向語音識別合成技術靠攏。當然語音合成及識別技術也注定了是未來發展的趨勢,因為它代表著科技 帶來了方便,當一切都可以用語音控制的時候,你會覺得確實很cool!因此,在如今語音技術的大熱潮下,為了不做奧特曼...

未來大資料時代,Hadoop會被Spark取代

由雅虎為工程師和資料科學家打造的apache hadoop曾因巨大的潛力而備受稱讚,但如今它卻受到了更快的產品的影響,而這些產品往往來自於它本身的生態系統 spark就是其中之一。今年早些,h20.ai的創始人sri ambati對datanami 曾說 spark將會使hadoop處於絕地 但在過...