學習筆記 Hadoop是什麼

2021-06-27 04:41:56 字數 1653 閱讀 3144



1.hadoop是什麼

hadoop原來是apachelucene下的乙個子專案,它最初是從nutch專案中分離出來的專門負責分布式儲存以及分布式運算的專案。簡單地說來,hadoop是乙個可以更容易開發和執行處理大規模資料的軟體平台。

2.下面列舉hadoop主要的一些特點:

1擴容能力(scalable):能可靠地(reliably)儲存和處理千兆位元組(pb)資料。

2成本低(economical):可以通過普通機器組成的伺服器群來分發以及處理資料。這些伺服器群總計可達數千個節點。

3高效率(efficient):通過分發資料,hadoop可以在資料所在的節點上並行地(parallel)處理它們,這使得處理非常的快速。

4可靠性(reliable):hadoop能自動地維護資料的多份複製,並且在任務失敗後能自動地重新部署(redeploy)計算任務。

3.hadoop實現了乙個分布式檔案系統(hadoopdistributedfilesystem),簡稱hdfs。

hdfs有著高容錯性(fault-tolerent)的特點,並且設計用來部署在低廉的(low-cost)硬體上。而且它提供高傳輸率(highthroughput)來訪問應用程式的資料,適合那些有著超大資料集(largedataset)的應用程式。hdfs放寬了(relax)posix的要求(requirements)這樣可以流的形式訪問(streamingaccess)檔案系統中的資料。

4.hadoop還實現了mapreduce分布式計算模型。

mapreduce將應用程式的工作分解成很多小的工作小塊(smallblocksofwork)。hdfs為了做到可靠性(reliability)建立了多份資料塊(datablocks)的複製(replicas),並將它們放置在伺服器群的計算節點中(computenodes),mapreduce就可以在它們所在的節點上處理這些資料了。

如下圖所示:

5.hadoopapi被分成(divideinto)如下幾種主要的包(package)

org.apache.hadoop.conf定義了系統引數的配置檔案處理api。

org.apache.hadoop.fs定義了抽象的檔案系統api。

org.apache.hadoop.dfshadoop分布式檔案系統(hdfs)模組的實現。

org.apache.hadoop.io定義了通用的i/oapi,用於針對網路,資料庫,檔案等資料物件做讀寫操作。

org.apache.hadoop.ipc用於網路服務端和客戶端的工具,封裝了網路非同步i/o的基礎模組。

org.apache.hadoop.mapredhadoop分布式計算系統(mapreduce)模組的實現,包括任務的分發排程等。

org.apache.hadoop.metrics定義了用於效能統計資訊的api,主要用於mapred和dfs模組。

org.apache.hadoop.record定義了針對記錄的i/oapi類以及乙個記錄描述語言翻譯器,用於簡化將記錄序列化成語言中性的格式(language-neutralmanner)。

org.apache.hadoop.tools定義了一些通用的工具。

org.apache.hadoop.util定義了一些公用的api。

hadoop是什麼?學習大資料乾貨分享

hadoop是大資料的乙個總稱,hadoop yarn是dadoop2的乙個基礎框架。現在常用的就是hadoop yarn,hadoop yarn可以說是大資料入門必須了解的部分。大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長 大資料學習...

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...