Hadoop資料切片基本原理

資料切片問題：

先給不懂得同學解釋一下概念：

資料塊block：是hdfs物理資料塊，乙個大檔案丟到hdfs上，會被hdfs切分成指定大小的資料塊，即block

資料切片：資料切片是邏輯概念，只是程式在輸入資料的時候對資料進行標記，不會實際切分磁碟資料

切片1：假設檔案大小為300m，切片大小為100m，blocksize為128m，則第乙個block會被切成100m + 28m，100m給datanode1上的maptask，剩餘的28m需要跨網路傳輸給datanode2，同理，datanode2的block也需要切分，不過切分需要加上datanode1剩餘的28m，也就是datanode2需要切分72m，加上28m才是datanode2上maptask所需的資料，以此類推，也就解釋了下圖的示意，這種情況最根本的問題就是大資料計算場景中，集群節點之間需要占用大量的網路io和磁碟io，計算效率會大大降低。

切片2：假設檔案依舊300m，但切片的大小splitsize=blocksize，則每乙個block就正好是乙個maptask所需資料，不需要切分block，也就沒有節點間的資料傳輸，效率就回很高，示例如下：

所以：

2. 每乙個split切片都會分配給乙個maptask並行例項處理

3. 預設情況下splitsize=blocksize

Hadoop資料切片基本原理

Hadoop基本原理

Hadoop基本原理之一 MapReduce

七 Hadoop基本原理總結 MapReduce

Hadoop資料切片基本原理

Hadoop基本原理

Hadoop基本原理之一 MapReduce

七 Hadoop基本原理總結 MapReduce

相關推薦