大資料初探 Hadoop歷史

hadoop是乙個開源的分布式框架，是apache下的乙個開源專案。hadoop執行可以在成千上萬個普通機器節點組成的集群上，通過分布式的計算模型和儲存模型來處理大資料集。hadoop具有高容錯性、工作在普通的機器節點上擴充套件性強等眾多的優點，是企業選擇處理大資料集工具的不二「人」選。

這個框架是另乙個大專案的一部分，有資料庫管理專家mike cafarella與開源技術的支持者dougcutting所構建。兩人建立了乙個名叫nutch的網路爬蟲與分析系統，該系統使用集群運算同時執行多項任務。之後nutch演化成兩個系統，其中之一就是hadoop分布式管理系統。

乙個hdfs集群主要由namenode和datanode組成，其中namenode只有乙個，主要用於管理儲存資料的元資料，而datanode可以有多個，主要用於直接儲存資料。