04 RDD程式設計練習

2022-09-15 01:12:09 字數 1610 閱讀 3532

一、filter,map,flatmap練習:

1.讀文字檔案生成rdd lines

2.將一行一行的文字分割成單詞 words

3.全部轉換為小寫

4.去掉長度小於3的單詞

5.去掉停用詞

**如下:

lines = sc.textfile("file:///home/hadoop/word.txt")

lines.collect()

words = lines.flatmap(lambda line : line.split())

words.collect()

words = words.map(lambda s : s.lower())

words.collect()

select_words = words.filter(lambda x: len(x)>3)

select_words.collect()

with open("/home/hadoop/stopwords.txt") as f:

file = f.read()

select_words = select_words.filter(lambda x: x not in file)

select_words.collect()

select_words_map = select_words.map(lambda s:(s,1))

select_words_map.collect()

最終結果如下:

[('love', 1), ('mapreduce', 1), ('love', 1), ('game', 1), ('love', 1), ('hadoop', 1), ('wenjiaqing', 1), ('201806120060', 1)]

二、groupbykey練習

6.練習一的生成單詞鍵值對

7.對單詞進行分組

8.檢視分組結果

結果如下:

('wenjiaqing', )

('mapreduce', )

('love', )

('hadoop', )

('201806120060', )

('game', )

* 相關檔案與**保留下來,後面還要用到。

RDD程式設計練習

一 filter,map,flatmap練習 1.讀文字檔案生成rdd lines 2.將一行一行的文字分割成單詞 words 3.全部轉換為小寫 4.去掉長度小於3的單詞 5.去掉停用詞 二 groupbykey練習 6.練習一的生成單詞鍵值對 7.對單詞進行分組 8.檢視分組結果 學生科目成績檔...

RDD程式設計

1.rdd程式設計概述 整個spark的核心 2.pari rdd 3.共享變數 重要 4.資料讀寫 5.wordcount程式解析 1.rdd程式設計概述 1.rdd建立,01.spark採用textfile 方法從檔案系統中載入資料建立rdd 該方法把檔案的uri作為引數,這個uri可以是 00...

Spark程式設計模型 RDD

spark程式設計模型是彈性分布式資料集 resilient distributed dataset,rdd 是mapreduce模型的擴充套件和延伸 基於rdd機制實現了多類模型計算,如 1.迭代計算 2.互動式sql查詢 3.mapreduce rdd 4.流式資料處理。markdown 是一種...