Hadoop 為什麼要做基準測試？

一、為什麼要做基準測試

有兩個問題：

將乙個 1t 的資料上傳到 hdfs 需要多久？

將乙個 10t 的資料從 hdfs 讀取完畢需要多久？

如果不做基準測試，這兩個問題就沒有答案，因為不知道。所以在搭建完集群後，一定要先做基準測試。

二、如何做基準測試

1.測試 hdfs 寫效能：向 hdfs 寫 10個 128m 的檔案（看自己心情設定檔案個數和大小）

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar testdfsio -write -nrfiles 10 -filesize 128mb

結果如下：

這裡主要看throughput引數即可，我的測試結果為：3.25 mb 每秒（本人筆記本虛擬機器4g記憶體測試，效能很低）

2.測試 hdfs 讀效能：讀取 hdfs 10個 128m 的檔案

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar testdfsio -read -nrfiles 10 -filesize 128mb

結果如下：

這裡依然看throughput引數即可，我的測試結果為：40.38 mb 每秒

3.測完最後刪除測試資料

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar testdfsio -clean

三、使用sort 程式評測 mapreduce

此項測試建議在強大的集群環境下做，最好不要在自己的低配電腦上（記憶體小於32g）做測試，否則......1.使用randomwriter來產生隨機數，每個節點執行10個map任務，每個map產生大約1g大小的二進位制隨機數

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar randomwriter random-data

2.執行sort程式

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar sort random-data sorted-data

3.驗證資料是否真正排好序了

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar testmapredsort -sortinput random-data -sortoutput sorted-data

Hadoop 為什麼要做基準測試？

為什麼要做介面測試

為什麼要做滲透測試

為什麼要做介面測試

Hadoop 為什麼要做基準測試？

為什麼要做介面測試

為什麼要做滲透測試

為什麼要做介面測試

相關推薦