學習筆記 Hadoop是什麼

1.hadoop是什麼

hadoop原來是apachelucene下的乙個子專案，它最初是從nutch專案中分離出來的專門負責分布式儲存以及分布式運算的專案。簡單地說來，hadoop是乙個可以更容易開發和執行處理大規模資料的軟體平台。

2.下面列舉hadoop主要的一些特點：

1擴容能力（scalable）：能可靠地（reliably）儲存和處理千兆位元組（pb）資料。

2成本低（economical）：可以通過普通機器組成的伺服器群來分發以及處理資料。這些伺服器群總計可達數千個節點。

3高效率（efficient）：通過分發資料，hadoop可以在資料所在的節點上並行地（parallel）處理它們，這使得處理非常的快速。

4可靠性（reliable）：hadoop能自動地維護資料的多份複製，並且在任務失敗後能自動地重新部署（redeploy）計算任務。

3.hadoop實現了乙個分布式檔案系統（hadoopdistributedfilesystem），簡稱hdfs。

hdfs有著高容錯性（fault-tolerent）的特點，並且設計用來部署在低廉的（low-cost）硬體上。而且它提供高傳輸率（highthroughput）來訪問應用程式的資料，適合那些有著超大資料集（largedataset）的應用程式。hdfs放寬了（relax）posix的要求（requirements）這樣可以流的形式訪問（streamingaccess）檔案系統中的資料。

4.hadoop還實現了mapreduce分布式計算模型。

mapreduce將應用程式的工作分解成很多小的工作小塊(smallblocksofwork)。hdfs為了做到可靠性（reliability）建立了多份資料塊（datablocks）的複製（replicas），並將它們放置在伺服器群的計算節點中（computenodes），mapreduce就可以在它們所在的節點上處理這些資料了。

如下圖所示：

5.hadoopapi被分成（divideinto）如下幾種主要的包（package）

org.apache.hadoop.conf定義了系統引數的配置檔案處理api。

org.apache.hadoop.fs定義了抽象的檔案系統api。

org.apache.hadoop.dfshadoop分布式檔案系統（hdfs）模組的實現。

org.apache.hadoop.io定義了通用的i/oapi，用於針對網路，資料庫，檔案等資料物件做讀寫操作。

org.apache.hadoop.ipc用於網路服務端和客戶端的工具，封裝了網路非同步i/o的基礎模組。

org.apache.hadoop.mapredhadoop分布式計算系統（mapreduce）模組的實現，包括任務的分發排程等。

org.apache.hadoop.metrics定義了用於效能統計資訊的api，主要用於mapred和dfs模組。

org.apache.hadoop.record定義了針對記錄的i/oapi類以及乙個記錄描述語言翻譯器，用於簡化將記錄序列化成語言中性的格式（language-neutralmanner）。

org.apache.hadoop.tools定義了一些通用的工具。

org.apache.hadoop.util定義了一些公用的api。

學習筆記 Hadoop是什麼

hadoop是什麼？學習大資料乾貨分享

Hadoop學習筆記 Hadoop初識

Hadoop學習筆記

學習筆記 Hadoop是什麼

hadoop是什麼？學習大資料乾貨分享

Hadoop學習筆記 Hadoop初識

Hadoop學習筆記

相關推薦