hadoop家族的各個成員

2021-09-08 10:20:56 字數 1018 閱讀 6033

這篇文章不提原理,講講hadoop及其周邊專案的作用。

hadoop這個詞已經流行好多年了,一提到大資料就會想到hadoop,那麼hadoop的作用是什麼呢?

官方定義:hadoop是乙個開發和執行處理大規模資料的軟體平台。核心詞語是平台,也就是說我們有大量的資料,又有好幾個電腦,我們知道應該把處理資料的任務分解到各個電腦上,可是不知道如何分配任務,如何**結果,hadoop大概就幫助我們做了這件事。

我們首先應該考慮的是海量資料怎麼儲存,怎麼管理。這就有了分布式檔案系統,hdfs。

資料儲存後,我們如何處理這些資料呢,假設我處理的方法複雜,而不不過排序,查詢這種操作怎麼辦?須要有乙個可以提供編寫**的地方,讓我們自己寫出操作,它內部再進行分解,分配,**資料等等。

能編**是好的,但編**太麻煩,並且資料庫人員是熟悉sql語句的,能用sql語句處理,就不用map-reduce了吧,所以出現了hive。並且大資料不管怎樣是離不開資料庫,離不開表,hive就能講資料對映成資料表,然後再操作就方便了,它的缺點是速度較慢。

既然hive的速度較慢,那麼有沒有較快的資料庫呢?hbase就是,他為查詢而生的,查詢的速度非常快。

曾經不是有非常多有名的資料庫像mysql,oracle,我資料都是存在這裡面的,怎麼匯入到hdfs中呢?sqoop提供了關係型資料庫和hdfs之間的相互轉換。

在這麼多電腦上工作,假設當中一台有點問題,或者上面哪個服務有點問題,如何知道哪壞了呢?flume提供了乙個高可靠的日誌採集系統。

處理大資料非常多是用來進行資料探勘,有那幾種常見的機器學習演算法,既然演算法都固定了並且就那幾種,那就開發個叫mahout的東西實現各種演算法,開發者就能更快捷的使用。

zookeeper的目標是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。說白了就是動物園管理員,他是用來來管大象(hadoop) 、 蜜蜂(hive)的。

以上是hadoop家族的主要成員,還有幾個不經常使用的就不用介紹了,知道這些成員的作用後,對hadoop總體能幹什麼就有了初步的認識,剩下的就是慢慢學習各個部分的原理和用法了。

家族成員查詢程式

這是 c primer 第四版上的10 18習題,我感覺值得我認真去學習其中的語法點和用法。定義乙個map物件,其元素的鍵是家族姓氏,而值則是儲存該家族孩子名字的vector物件。為這個map容器輸入 至少6個條目。通過基於家族姓氏的查詢檢測你的程式,查詢應輸出該家族所有孩子的名字。定義乙個map物...

hadoop各個元件之間的通訊

文章 在hadoop中為了方便集群中各個元件之間的通訊,它採用了rpc,當然為了提高元件之間的通訊效率以及考慮到元件自身的負載等情況,hadoop在其內部實現了乙個基於ipc模型的rpc。關於這個rpc元件的整體情況我已紹經在前面的博文中介紹過了。而在本文,我將結合源 詳細地介紹它在客戶端的實現。先...

Ubuntu大家族的新成員Lubuntu

基於 ubuntu 平台與輕桌面環境 lxde 的linux 發行版lubuntu 存在已經有幾年了,但是直到今年5月 11日才被正式接納為 ubuntu 大家族的新成員。嚴格地講,lubuntu 是ubuntu 的一種官方 變體 variant 在ubuntu 大家族中具有相當高的 地位 排行 老...