統計明星的搜尋指數

2021-08-14 18:35:12 字數 3236 閱讀 8035

一、目的

根據給出的資料樣本,統計出搜尋指數最高的男明星和女明星。

二、思路分析

三、部分資料

四、編寫程式

1.map函式解析資料集

/*

* *map函式

* key=gender,value=name+hotindex

*/public

static

class

mapextends

}

2.combiner函式,對map的輸出結果先進行一次合併,減少網路輸出

/*

* */

public

static

class

startcombiner

extends

reducer

//設定value的值

text.set(name+"\t"+maxhotindex);

//輸出key=key,value = text

context.write(key, text);}}

}

3.partitioner函式,根據明星性別對資料進行分割槽。

/*

* 定義partitioner類,根據性別分割槽

* 輸出key=gender,value=name+hotindex

*/public

static

class

***partitioner

extends

partitioner

}

4.reduce函式,呼叫reduce(key, iterable< text> values, context)方法來處理每個key和values的集合。在values集合中,計算出明星的最大搜尋指數。

/*

* 定義reduce類,統計不同性別明星的最高搜尋指數

* 輸出key=name,value=gender+max(index)

*/public

static

class

reduce

extends

reducer

}context.write(new text(name), new text(key+"\t"+maxhotindex));}}

5.run驅動函式

public

int run(string arg) throws exception

job job = new job(conf,"startindex");//新建乙個任務

job.setjarbyclass(starindex.class);//設定主類

job.setnumreducetasks(2);//reduce個數

job.setpartitionerclass(***partitioner.class);//設定partitioner類

job.setcombinerclass(startcombiner.class);//設定combiner類

job.setmapoutputkeyclass(text.class);

job.setmapoutputvalueclass(text.class);

job.setreducerclass(reduce.class);//reducer

job.setoutputkeyclass(text.class);

job.setoutputvalueclass(text.class);

fileinputformat.addinputpath(job, new path(arg[0]));//輸入路徑

fileoutputformat.setoutputpath(job, new path(arg[1]));//輸出路徑

job.waitforcompletion(true);//提交任務

return

0; }

6.主函式

public

static

void

main(string arg) throws exception

;int ec = toolrunner.run(new configuration(), new starindex(), args);

system.exit(ec);

}

五、編譯和執行將專案打包成jar,使用ssh上傳至hdfs目錄下

執行jar包

檢視結果

在myeclipse上檢視結果

Hadoop實戰 明星搜尋指數統計,找出人氣王

本專案我們使用明星搜尋指數資料,分別統計出搜尋指數最高的男明星和女明星。基於專案的需求,我們通過以下幾步完成 3 編寫 partitioner 類,按性別,將結果指定給不同的 reduce 執行。4 編寫 reducer 類,分別統計出男 女明星的最高搜尋指數。5 編寫 run 方法執行 mapre...

ArcGIS空間統計 Moran s莫蘭指數下

本文接上篇 arcgis空間統計 moran s莫蘭指數上 概述 根據要素位置和屬性值使用 global moran s i 統計量測量空間自相關性。提出者為澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred pierce moran 詳細概述 空間自相關 global ...

白話空間統計之 Moran s I(莫蘭指數)

前兩天聊了空間統計學裡面的兩個經典概念,今天來說說第一篇文章留下的大坑 moran s i 首先,moran s i 這個東西,官方叫做 莫蘭指數,是澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred piercemoran 好長的名字,不過一般都簡稱為 帕克 莫蘭,就是...