Spark經典案例之資料排序

2021-09-12 06:28:53 字數 969 閱讀 9351

業務場景:資料排序

1、」資料排序」是許多實際任務執行時要完成的第一項工作,

比如學生成績評比、資料建立索引等。這個例項和資料去重類似,都是先對原始資料進行初步處理,為進一步的資料操作打好基礎。

1)、需求描述

對輸入檔案中資料進行排序。輸入檔案中的每行內容均為乙個數字,即乙個資料。

要求在輸出中每行有兩個間隔的數字,其中,第乙個代表原始資料在原始資料集中的位次,第二個代表原始資料。

2)輸入檔案

file1:232

65432

15756

65223

file2:

5956

22650

92file3:

2654

6樣例輸出:

1 22 6

3 15

4 22

5 26

6 32

7 32

8 54

9 92

10 650

11 654

12 756

13 5956

14 65223

package classiccase

import org.apache.spark.

/** * 業務場景:資料排序

* created by yj on 2017/2/8.

*/object case3

).collect.foreach(x => println(x._1 +"\t" + x._2) )

}}

輸出結果:

1 22 6

3 15

4 22

5 26

6 32

7 32

8 54

9 92

10 650

11 654

12 756

13 5956

14 65223

Spark經典案例之資料去重

資料格式 flie1 2012 3 1 a 2012 3 2 b 2012 3 3 c 2012 3 4 d 2012 3 5 a 2012 3 6 b 2012 3 7 c 2012 3 3 c flie2 2012 3 1 b 2012 3 2 a 2012 3 3 b 2012 3 4 d 2...

Spark面試經典系列之資料傾斜 資料傾斜之痛

本課主題 spark效能真正的殺手 資料傾斜兩大直接致命性的的後果 資料傾斜最殺人就是 out of memory oom 一般oom都是由於資料傾斜所致 速度變慢 特別慢 非常慢 極端的慢 不可接受的慢。資料傾斜基本特徵 個別 task處理大量資料 20 和80 基本上都存在業務熱點問題,這是現實...

經典排序之氣泡排序

邊學習邊記載。氣泡排序是經典排序之一,時間複雜度是o n 2 以如下陣列為例 陣列 5 6 3 1 8 7 2 4,以從小到大排序為例 i表示陣列下標,初始化為0 5 6 3 1 8 7 2 4 第一輪是從0到n 1比較,n為陣列的長度 1 首先i 0 比較5,6,由於5 6,所以保持不變 2 i ...