hadoop集群與偽分布式的效能對比

2021-10-01 18:58:31 字數 2137 閱讀 1617

映象centos6.5,hadoop-2.6.0,mysql-5.4.0,hive-1.2.1

集群配置:master 4g1核,2個處理器,子節點(2個):1g1核,1個處理器

偽分布式:4g1核,2個處理器

使用hql測試:

資料:

hive> select *from course;

01 語文 02

02 數學 01

03 英語 03

hive> select *from teacher;

01 張三

02 李四

03 王五

hive> select *from student;

01 趙雷 1990-01-01 男

02 錢電 1990-12-21 男

03 孫風 1990-05-20 男

04 李雲 1990-08-06 男

05 周梅 1991-12-01 女

06 吳蘭 1992-03-01 女

07 鄭竹 1989-07-01 女

08 王菊 1990-01-20 女

hive> select *from score;

01 01 80

01 02 90

01 03 99

02 01 70

02 02 60

02 03 80

03 01 80

03 02 80

03 03 80

04 01 50

04 02 30

04 03 20

05 01 76

05 02 87

06 01 31

06 03 34

07 02 89

07 03 98

執行測試:

select distinct s1.s_id from score s1 where s1.c_id=『01』 and s1.s_id not in(select distinct s2.s_id from score s2 where s2.c_id=『02』)

集群 :time taken::127

偽分布:time taken: 117.481 seconds, fetched: 1 row(s)

select a.s_id from (select s_id from score where c_id =1 ) a left join (select s_id from score where c_id =2 ) b on a.s_id = b.s_id where b.s_id is null;

集群: time taken::18

偽分布式:time taken: 15.239 seconds, fetched: 1 row(s)

select student.* from student join (select count(c_id)num1 from course)tmp1

left join (select s_id,count(c_id)num2 from score group by s_id) tmp2

on student.s_id=tmp2.s_id and tmp1.num1=tmp2.num2

where tmp2.s_id is null;

集群:time taken: 67.308

偽分布式:time taken: 62.53 seconds, fetched: 4 row(s)

select student.*,a.s_score as 01_score,b.s_score as 02_score from student

join score a on a.c_id=『01』

join score b on b.c_id=『02』

where a.s_id=student.s_id and b.s_id=student.s_id and a.s_score>b.s_score;

集群:time taken: 16.281

偽分布式:time taken: 14.016 seconds, fetched: 2 row(s)

hadoop 偽分布式集群的搭建

一 準備工作 1 二 修改配置檔案 1 2.1 修改hadoop env.sh.1 2.2 修改core site.xml2 2.3 修改hdfs site.xml2 2.4 修改mapred site.xml2 2.5 修改yarn site.xml2 三 配置haoop的環境變數 3 3.1 環...

hadoop偽分布式

首先是本機模式的搭建,如 1 hdfs dfs ls 檢視本地分布式檔案系統,查詢結果為你本機linux檔案系統,說明你的本地模式已經搭建成功 2 進入安裝目錄hadoop資料夾下,進入etc hadoop下對四個配置檔案進行配置 core site.xml hdfs site.xml mapred...

hadoop偽分布式

一 安裝jdk 2 配置環境變數 配置成功 二 ssh免密碼登入 三 hadoop偽分布式配置 2 解壓 3 修改配置檔案 修改為jdk安裝位置 hadoop.tmp.dir file swy bigdata hadoop tmp abase for other temporary director...