從零開始學Hadoop 初識

2021-07-11 14:20:36 字數 1416 閱讀 1642

我們知道大資料的時代已經到來,之前就給大家分享了應對大資料的非關係型資料庫redis。今天,我們再來看看處理和分析海量資料的神器——hadoop。

hdfs(hadoop distributed file system,hadoop分布式檔案系統),它是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,適合那些有著超大資料集(large data set)的應用程式。

mapreduce是乙個計算框架,乙個處理分布式海量資料的軟體框架及計算集群。

搜尋引擎(doug cutting  設計hadoop的初衷,為了針對大規模的網頁快速建立索引)。
大資料儲存,利用hadoop的分布式儲存能力,例如資料備份、資料倉儲等。
大資料處理,利用hadoop的分布式處理能力,例如資料探勘、資料分析等。
科學研究,hadoop是一種分布式的開源框架,對於分布式計算有很大程度地參考價值。
高可靠性。

hadoop按位儲存和處理資料的能力值得人們信賴。

高擴充套件性。

hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。

高效性。

hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。

高容錯性。

hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。

低成本。

與一體機、商用資料倉儲以及qlikview、yonghong z-suite等資料集市相比,hadoop是開源的,專案的軟體成本因此會大大降低。

不適合低延遲資料訪問。
無法高效儲存大量小檔案。
不支援多使用者寫入及任意修改檔案。
今天我們簡單認識了一下hadoop,知道了hadoop在大資料處理中的重要作用,以後我們將逐步學習hadoop,希望對喜歡hadoop的人有所幫助。

零開始學python 從零開始學Python

第1章 python入門 1 1 1 什麼是python 1 1 2 python語言有什麼特點 2 1 3 python可以幹什麼 4 練一練 5 第2章 準備開發環境 6 2 1 在windows上安裝python開發環境 6 2 2 選擇和安裝開發工具 11 練一練 17 第3章 基本概念 1...

從零開始學android

相對布局管理器指的是參考某一其他控制項進行擺放,可以通過控制,將元件擺放在乙個指定參考元件的上 下 左 右等位置,這些可以直接通過各個元件提供的屬性完成。下面介紹一下各個方法的基本使用 no.屬性名稱 對應的規則常量 描述1 android layout below relativelayout.b...

從零開始學 樹

在之前做二級的題的時候,偶爾會碰見二叉樹,很自然的就想起了樹,那麼什麼是樹呢?這裡說的可不是外面的參天大樹,而是有實際概念的樹,下面就來介紹一下樹。樹是由n n 0 個結點組成的有限集合。若n 0,稱為空樹 若n 0,則 1 有乙個特定的稱為根 root 的結點。它只有直接後繼,但沒有直接前驅 2 ...