MapReduce中的map個數

在map階段讀取資料前，fileinputformat會將輸入檔案分割成split。split的個數決定了

map的個數。

影響map個數（split個數）的主要因素有：

1) 檔案的大小。當塊（dfs.block.size）為128m時，如果輸入檔案為128m，會被劃分為1個split；當塊為256m，會被劃分為2個split。

2) 檔案的個數。fileinputformat按照檔案分割split，並且只會分割大檔案，即那些大小超過hdfs塊的大小的檔案。如果hdfs中dfs.block.size設定為128m，而輸入的目錄中檔案有100個，則劃分後的split個數至少為100個。

3) splitsize的大小。分片是按照splitszie的大小進行分割的，乙個split的大小在沒有設定的情況下，預設等於hdfs block的大小。但應用程式可以通過兩個引數來對splitsize進行調節

inputsplit=math.max(minsize, math.min(maxsize, blocksize)

其中：minsize=mapred.min.split.size

maxsize=mapred.max.split.size

我們可以在mapreduce程式的驅動部分新增如下**：

textinputformat.setmininputsplitsize(job,1024l); // 設定最小分片大小

textinputformat.setmaxinputsplitsize(job,1024×1024×10l); // 設定最大分片大小

總結如下：

當mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize > dfs.blocksize的情況下，此時的splitsize 將由mapreduce.input.fileinputformat.split.minsize引數決定

當mapreduce.input.fileinputformat.split.maxsize > dfs.blocksize > mapreduce.input.fileinputformat.split.minsize的情況下，此時的splitsize 將由dfs.blocksize配置決定

當dfs.blocksize > mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize的情況下，此時的splitsize將由mapreduce.input.fileinputformat.split.maxsize引數決定。

】。

MapReduce中的map個數

mapreduce中map和reduce個數

mapreduce中map個數的確定

mapreduce中MAP數量如何控制？

MapReduce中的map個數

mapreduce中map和reduce個數

mapreduce中map個數的確定

mapreduce中MAP數量如何控制？

相關推薦