hadoop權威指南閱讀 一

2021-06-19 10:18:56 字數 747 閱讀 9853

1.任務:查詢所有年份最高氣溫

map的目的是吐出點對,年份=>氣溫

output.collect(new text(year),new intwritable(airtemperature));

key可以重複,例如可以是

1950 23

1950 22

1950 28

2)maxtemperaturereducer.class

reducer的目的,是針對輸入的所有key values;計算最終值,這裡的輸入就相當於 1950 => array(23,22,28)了

int maxvalue = 0;

while(values.hasnext())

output.collect(key,new intwritable(maxvalue)); //這裡如果輸入是上面說的1950的資料,輸出就是 1950 28

}3)進行實際操作 

...conf.setreducerclass(maxtemperaturereducer.class);

...jobclient.runjob(conf);

4)合併結果集的操作類

在這裡復用maxtemperaturereducer.class

conf.setcombinerclass(maxtemperaturereducer.class);

因為結果集合會是

1950 28

1951 22

1952 23

的樣式

《Hadoop權威指南》閱讀記錄2

第3章 hadoop分布式檔案系統 hadoop distributed filesystem 以流式資料訪問模式來儲存超大檔案 hadoop的構建思路 一次寫入,多次讀取時最高效的訪問模式,讀取整個資料集的時間延遲,比讀取第一條記錄的時間延遲更重要。目前,寫操作總是將資料新增在檔案的末尾,他不支援...

Hadoop 權威指南

rpm包和deb包是兩種linux系統下最常見的安裝包格式,在安裝一些軟體或服務的時候免不了要和它們打交道。rpm包主要應用在redhat系列包括 fedora等發行版的linux系統上,deb包主要應用於debian系列包括現在比較流行的ubuntu等發行版上。yum可以用於運作rpm包,例如在f...

hadoop 權威指南 HBase

hbase原理 基本概念 基本架構 應用將資料儲存在帶標籤的表中,表的單元格是行和列座標的座標交集,他們有版本號。在預設情況下版本號是單元格插入時hbase自動分配的時間戳。表的單元格內容是乙個未解釋的位元組陣列 錶行的鍵也是位元組陣列。行鍵是表的主鍵,被用來對錶行進行排序。錶行的列分組,形成列族 ...