Hadoop重點元件

hdfs的全稱是hadoop distributed file system易於擴充套件的分布式檔案儲存系統，執行在大量普通廉價機器上，提供容錯機制，為大量使用者提供效能不錯的檔案訪問服務，

它的設計目標是

自動快速檢測應對硬體錯誤

流式訪問資料

移動計算比移動資料本身更划算

簡單一致性模型

異構平台可移植

它的特點：包括優點和缺點兩個方面

優點：6. 高可靠性：hadoop按位儲存和處理資料的能力值得人們信賴;

7. 高擴充套件性：hadoop是在可用的計算機集簇間分配資料並完成計算任務的，這些集簇可以方便地擴充套件到數以千計的節點中。

8. 高效性：hadoop能夠在節點之間動態地移動資料，並保證各個節點的動態平衡，因此處理速度非常快。

9. 高容錯性：hadoop能夠自動儲存資料的多個副本，並且能夠自動將失敗的任務重新分配。

缺點：10. 不適合低延遲資料訪問。

11. 無法高效儲存大量小檔案。

12. 不支援多使用者寫入及任意修改檔案。

hdfs的核心設計理念是

分而治之：將大檔案、大批量檔案，分布式存放在大量伺服器上，以便於採取分而治之的方式對海量資料進行運算分析；

它的重要特性包括

hdfs中的檔案在物理上是分塊儲存（block），塊的大小可以通過配置引數( dfs.blocksize)來規定，預設大小在hadoop2.x版本中是128m，老版本中是64m。

hdfs檔案系統會給客戶端提供乙個統一的抽象目錄樹，客戶端通過路徑來訪問檔案，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

目錄結構及檔案分塊資訊(元資料)的管理由namenode節點承擔——namenode是hdfs集群主節點，負責維護整個hdfs檔案系統的目錄樹，以及每乙個路徑（檔案）所對應的block塊資訊（block的id，及所在的datanode伺服器）。

檔案的各個block的儲存管理由datanode節點承擔— datanode是hdfs集群從節點，每乙個block都可以在多個datanode上儲存多個副本（副本數量也可以通過引數設定dfs.replication）。

hdfs是設計成適應一次寫入，多次讀出的場景，且不支援檔案的修改。

hdfs shell操作

hadoop 引數調優重點引數

yarn的引數調優,必調引數 28 yarn.nodemanager.resource.memory mb 預設為8192。每個節點可分配多少物理記憶體給yarn使用，考慮到節點上還可能有其他程序需要申請記憶體，該值設定為物理記憶體總數 1.3比較合適，例如128g記憶體的節點可以分配100g 3...

hadoop基礎元件介紹

hadoop 的核心 hdfs hadoop distributed file system 分布式檔案系統 yarn yet another resource negotiator 資源管理排程系統 mapreduce 分布式運算框架主從結構主節點，namenode 從節點，有很多個 data...

hadoop元件概念理解

一 hadoop 二 hive 三 sqoop 1.來由和作用 sqoop由一些封裝好的mr程式的jar包構成，後演變成框架，但sqoop只有map任務沒有reduce任務。用於 hdfs hive hbase 和關係型資料庫rdbms之間資料的匯入匯出。2.匯入到hdfs過程 2.1 gather...

Hadoop重點元件

hadoop 引數調優重點引數

hadoop基礎元件介紹

hadoop元件概念理解

相關推薦