動手實戰建立RDD的三種方式

2021-07-07 01:31:02 字數 843 閱讀 5463

1.通過已經存在的scala集合

2.通過hdfs,hbase等

從 hadoop中的hdfs讀取資料。

todebugstring可以檢視rdd建立的過程

1.首先要從hadoop中讀取資料,因此會有mapred.fileinputformat,共有88個檔案

2.hadooprdd就把物理層分片轉化成邏輯層分片。

3.mapartitionsrdd就可以把讀取出來的資料做一次轉換,把索引號去掉

3.其他的rdd轉換

rdd支援兩種操作:轉換(transformation),即從現有的資料集建立乙個新的資料集;動作(action),即在資料集上進行計算後,返回乙個值給driver程式。

例如:map就是一種轉換,它將資料集每乙個元素都傳遞給函式,並返回乙個新的分布式資料集表示結果。reduce是一種動作,通過一些元素將所有元素疊加起來,

並將最終結果返回給driver,其次另乙個reducebykey,能返回乙個分布式資料集。

單詞統計:

從下面的過程可以看出來每個 rdd之間存在的依賴。

三種方式建立DataFrame

import pandas as pd data df pd.dataframe data dfab c047 10158 11269 12import pandas as pd data 4,7,10 5,8,11 6,9,12 df pd.dataframe data,columns a b c...

執行緒的三種建立方式

public class web12306 多執行緒的三種方式 class threadtest01 extends thread class threadtest02 implements runnable class threadtest03 implements callable return...

建立執行緒的三種方式

一 是繼承thread方法 public class mythread extends thread private void dosomething public class newthread private static void dosomething 二 是實現runnable介面 使用r...