大資料學習之提交job流程,分割槽和合併11

2022-03-18 02:48:30 字數 1343 閱讀 1708

1:自定義乙個partition類(直接使用上次那個流量統計那個**

package it.dawn.yarnpra.flow流量彙總序列化.partition;

import org.apache.hadoop.io.text;

import org.apache.hadoop.mapreduce.partitioner;

/** * @author dawn

* @date 2023年5月3日22:03:08

* @version 1.0

* 自定義乙個分割槽

*/public class phonenumpartitioner extends partitionerelse if("137".equals(phonenum))else if("138".equals(phonenum)) else if("139".equals(phonenum))

return partitioner;

}}

2:在driver類中新增partiton的分割槽個數3:執行結果

原理圖:

1:

maptask

並行度與決定機制

2 maptask工作機制

3:運用場景

1:多個小檔案合併優化(減少

maptask

任務)2:combiner 合併

(使用上回的wordcount程式)

父類reducer

區域性彙總

,減少網路傳輸量

,進而優化程式。

注意:求平均值?

3  5  7  2  6

(2 + 6)/2 = 4

reducer:(5+4)/2

前提:只能應用在不影響最終業務邏輯的情況下

使用:只需新增一行**即可

//新增combiner

job.setcombinerclass(wordcountreducer.class);

大資料開發學習之Hive的靜態分割槽

分割槽是hive存放資料的一種方式。將列值作為目錄來存放資料,就是乙個分割槽。這樣查詢時使用分割槽列進行過濾,只需根據列值直接掃瞄對應目錄下的資料,不掃瞄其他不關心的分割槽,快速定位,提高查詢效率。hive分割槽分為靜態分割槽和動態分割槽兩種,以下是hive的靜態分割槽。靜態分割槽 若分割槽的值是確...

大資料學習 之MapReduce Job

1 先把yarn服務停了 hadoop hadoop001 hadoop 2.6.0 cdh5.7.0 sbin stop yarn.sh 2 把之前的資訊刪了 hadoop hadoop001 hadoop 2.6.0 cdh5.7.0 hdfs dfs rm r f user 3 再建立hdfs...

大資料學習之Hive

建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 1 hive處理的資料儲存在hdfs 2 hive分析資料底層的實現是mapreduce 3 執行程式執行在yarn上 hive的優缺點 帶...