大資料系列文章 Hadoop基礎介紹(一)

2022-01-31 00:35:20 字數 799 閱讀 9209

大名鼎鼎的lucene、nutch也是他弄出來的。

他目前在cloudera公司擔任首席架構師工作。

(主)namenode節點儲存檔案元資料

(從)datanode節點儲存檔案block資料

datanode與namenode保持心跳,提交block列表(這裡的心跳指的是datanode會週期性的給namenode提交資料報,報告datanode節點狀態以及block列表)

hdfsclient與namenode互動元資料資訊

hdfsclient與datanode互動檔案block資料

簡單介紹下這個hdfs架構圖,後面會詳細介紹讀寫流程,所以這裡只是帶大家簡單理解下。

例如乙個檔案50gb,按照64mb切塊的話,切成若干個64mb大小的塊。這些塊是有副本概念,例如block1,會在不同的server節點上都有其副本。右上角是描述清單,也就是所謂的原資料,存在namenode程序中去,其中block1:node1,node2,node3,表示block1的位置資訊。

高容錯性

適合批處理

適合大資料處理

可構建在廉價機器上

低延遲資料訪問

小檔案儲存

併發寫入、檔案隨機修改

namenode儲存metadata資訊包括

大資料hadoop系列 Hive優化

map階段的優化 作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊 從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m,20m,130...

Hadoop系列001 大資料概論

大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。最小的基本單位是bit,按順序給出所有單位 bit byte kb mb gb tb pb eb zb yb...

學習Hadoop不錯的系列文章

1 hadoop學習總結 1 hdfs簡介 2 hdfs讀寫過程解析 3 map reduce入門 4 map reduce的過程解析 5 hadoop的執行痕跡 6 apache hadoop 版本 2 hadoop 0.20.0源 分析 1 hadoop 0.20.0源 分析 01 2 hado...