Hadoop 介紹筆記

hadoop是乙個由apache**會所開發的分布式系統基礎架構。使用者可以在不了解分布式底層細節的情況下，開發分布式程式。充分利用集群的威力進行高速運算和儲存。hadoop實現了乙個分布式檔案系統（ distributed file system），其中乙個元件是hdfs（hadoop distributed file system）。hdfs有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上；而且它提供高吞吐量（high throughput）來訪問應用程式的資料，適合那些有著超大資料集（large data set）的應用程式。hdfs放寬了（relax）posix的要求，可以以流的形式訪問（streaming access）檔案系統中的資料。hadoop的框架最核心的設計就是：hdfs和mapreduce。hdfs為海量的資料提供了儲存，而mapreduce則為海量的資料提供了計算[1] 。

hadoop是乙個能夠對大量資料進行分布式處理

的軟體框架。 hadoop 以一種可靠、高效、可伸縮的方式進行資料處理。

hadoop 是可靠的，因為它假設計算元素和儲存會失敗，因此它維護多個工作資料副本，確保能夠針對失敗的節點重新分布處理。

hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。

hadoop 還是可伸縮的，能夠處理 pb 級資料。

此外，hadoop 依賴於社群服務，因此它的成本比較低，任何人都可以使用。

hadoop是乙個能夠讓使用者輕鬆架構和使用的分布式計算平台。使用者可以輕鬆地在hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點[3]

：1.高可靠性。hadoop按位儲存和處理資料的能力值得人們信賴[3]

。2.高擴充套件性。hadoop是在可用的計算機集簇間分配資料並完成計算任務的，這些集簇可以方便地擴充套件到數以千計的節點中[3]

。3.高效性。hadoop能夠在節點之間動態地移動資料，並保證各個節點的動態平衡，因此處理速度非常快[3]

。4.高容錯性。hadoop能夠自動儲存資料的多個副本，並且能夠自動將失敗的任務重新分配[3]

。5.低成本。與一體機、商用資料倉儲以及qlikview、yonghong z-suite等資料集市相比，hadoop是開源的，專案的軟體成本因此會大大降低[3]

。hadoop帶有用j**a語言編寫的框架，因此執行在 linux 生產平台上是非常理想的。hadoop 上的應用程式也可以使用其他語言編寫，比如 c++

[3]。

hadoop大資料處理的意義

hadoop架構圖

hadoop得以在大資料處理應用中廣泛應用得益於其自身在資料提取、變形和載入(etl)方面上的天然優勢。hadoop的分布式架構，將大資料處理引擎盡可能的靠近儲存，對例如像etl這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向儲存。hadoop的mapreduce功能實現了將單個任務打碎，並將碎片任務(map)傳送到多個節點上，之後再以單個資料集的形式載入(reduce)到資料倉儲裡[3]

Hadoop 介紹筆記

Hadoop讀書筆記（一）Hadoop介紹

Hadoop讀書筆記（一）Hadoop介紹

Hadoop筆記（一） MapReduce介紹

Hadoop 介紹筆記

Hadoop讀書筆記（一）Hadoop介紹

Hadoop讀書筆記（一）Hadoop介紹

Hadoop筆記（一） MapReduce介紹

相關推薦