切片和maptask並行度決定機制

maptask指的是在mapreduce執行過程中為每乙個資料切片分配的資料運算例項任務。maptask的並行度也就指的是運算任務例項的數量，影響整個job的處理速度。

**資料塊：**block是hdfs物理上把資料分成一塊一塊。

**資料切片：**資料切片只是在邏輯上對輸入進行分片，並不會在磁碟上將其切分成片進行儲存。

對於乙個要處理的檔案資料map框架有預設的切片大小，一般預設為blocksize的大小，在分配maptask運算任務例項的時候對每乙個資料切片分配乙個maptask，這樣的話若乙個檔案的大小沒有達到blocksize的大小的時候（比如說檔案大小只有1k），那當然就會為了減少資源浪費預設分配乙個maptask。

乙個job的map階段有客戶端在提交job時的切片數決定。

每乙個資料切片，split切片分配乙個maptask例項處理。

預設情況下切片大小預設為blocksize。（如果說不是blocksize的話，與datanode中儲存的資料塊大小不相符，那麼在maptask階段，就需要進行datanode之間的資料傳輸，大大增加了io操作耗費的時間。）切片時不考慮資料集整體，而是逐個對每乙個檔案進行切片。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-ckghyqus-1603113650855)(

切片和maptask並行度決定機制

maptask 個數（並行度）決定機制

maptask的並行度

Hadoop資料切片與MapTask並行度決定機制

切片和maptask並行度決定機制

maptask 個數（並行度）決定機制

maptask的並行度

Hadoop資料切片與MapTask並行度決定機制

相關推薦