HDFS資料塊大小設計策略

2021-10-06 15:38:05 字數 695 閱讀 6638

hdfs中的檔案在物理上是分塊儲存(block),預設大小在hadoop2.x版本中是128m,老版本中是64m。

原因:

檔案塊越大,分割數越少,定址時間越短,但磁碟傳輸時間越長;

檔案塊越小,分割數越多,定址時間越長,但磁碟傳輸時間越短;

目的:盡可能保持使定址時間僅佔傳輸時間的1%

如果定址時間約為10ms,而傳輸速率為100mb/s

我們要將塊大小設定約為100mb。預設的塊大小128mb。

塊的大小:10ms*100*100m/s = 100m

建議:

隨著磁碟的io效能越來越好,塊的大小設定可以進一步增加,塊的大小可以進一步增加256mb甚至是512

測試io

測試io的大小可以參考文章:

ps:塊的大小影響計算的並行度和namenode的壓力,塊太小,namenode記錄的資訊太多,塊太大map的任務就少,一定程度上影響計算的並行度

>

>

dfs.block.sizename

>

>

256000000value

>

property

>

HDFS 檔案塊大小

hdfs中的檔案在物理上是分塊儲存 block 塊的大小可以通過配置引數 dfs.blocksize 來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m。思考 為什麼塊的大小不能設定太小,也不能設定太大?1 hdfs的塊設定太小,會增加定址時間,程式一直在找塊的開始位置 2 如果...

Java事務設計策略

最近閱讀了infoq上的電子書 之後受益匪淺,單獨花了兩周時間將其翻譯了一下.由於英語只是四級水準,所以翻譯內容中的不足之處也請見諒.附件裡第乙份是翻譯後的文件,第二份是英文原文.下面列出文中映象深刻的幾點 事務模型的分類 list 本地事務模式,管理連線 程式設計式事務模式,程式設計管理jta事務...

HDFS塊大小的計算與設計規則

1.概述 hadoop集群中檔案的儲存都是以塊的形式儲存在hdfs中。2.預設值 從2.7.3版本開始block size的預設大小為128m,之前版本的預設值是64m.3.如何修改block塊的大小?可以通過修改hdfs site.xml檔案中的dfs.block.size對應的值。dfs.blo...