Spark經典案例之資料排序

業務場景：資料排序

1、」資料排序」是許多實際任務執行時要完成的第一項工作，

比如學生成績評比、資料建立索引等。這個例項和資料去重類似，都是先對原始資料進行初步處理，為進一步的資料操作打好基礎。

1）、需求描述

對輸入檔案中資料進行排序。輸入檔案中的每行內容均為乙個數字，即乙個資料。

要求在輸出中每行有兩個間隔的數字，其中，第乙個代表原始資料在原始資料集中的位次，第二個代表原始資料。

2）輸入檔案

file1：232

65432

15756

65223

file2：

5956

22650

92file3：

2654

6樣例輸出：

1 22 6

3 15

4 22

5 26

6 32

7 32

8 54

9 92

10 650

11 654

12 756

13 5956

14 65223

package classiccase
import org.apache.spark.
/** * 業務場景：資料排序
* created by yj on 2017/2/8.
*/object case3 
).collect.foreach(x => println(x._1 +"\t" + x._2) )
}}

輸出結果:

1 22 6

3 15

4 22

5 26

6 32

7 32

8 54

9 92

10 650

11 654

12 756

13 5956

14 65223

Spark經典案例之資料去重

資料格式 flie1 2012 3 1 a 2012 3 2 b 2012 3 3 c 2012 3 4 d 2012 3 5 a 2012 3 6 b 2012 3 7 c 2012 3 3 c flie2 2012 3 1 b 2012 3 2 a 2012 3 3 b 2012 3 4 d 2...

Spark面試經典系列之資料傾斜資料傾斜之痛

本課主題 spark效能真正的殺手資料傾斜兩大直接致命性的的後果資料傾斜最殺人就是 out of memory oom 一般oom都是由於資料傾斜所致速度變慢特別慢非常慢極端的慢不可接受的慢。資料傾斜基本特徵個別 task處理大量資料 20 和80 基本上都存在業務熱點問題，這是現實...

經典排序之氣泡排序

邊學習邊記載。氣泡排序是經典排序之一，時間複雜度是o n 2 以如下陣列為例陣列 5 6 3 1 8 7 2 4，以從小到大排序為例 i表示陣列下標，初始化為0 5 6 3 1 8 7 2 4 第一輪是從0到n 1比較，n為陣列的長度 1 首先i 0 比較5,6，由於5 6，所以保持不變 2 i ...

Spark經典案例之資料排序

Spark經典案例之資料去重

Spark面試經典系列之資料傾斜 資料傾斜之痛

經典排序之氣泡排序

相關推薦

Spark面試經典系列之資料傾斜資料傾斜之痛