Rdd建立的兩種方式

2021-10-07 01:28:27 字數 780 閱讀 9555

1 parallelize 函式

val paraadd= sc.parallelize(array(1 to 100))
2 外部儲存建立操作

val lines: rdd[string] = sc.textfile("user.log")

除錯**

// 建立配置檔案物件

val conf: sparkconf = new sparkconf()

// 配置應用程式名稱

//window除錯引數

conf.set("spark.testing.memory", "2147480000")

conf.set("spark.driver.host","localhost")

// 配置執行模式,idea下必須為local模式

// local是呼叫乙個執行緒來執行該job

// local[2]是呼叫兩個執行緒來執行該job

// local[*]是呼叫當前所有空閒的執行緒來執行該job

conf.setmaster("local")

// spark的上下文物件,也稱為集群的入口類

val sc: sparkcontext = new sparkcontext(conf)

//parallelize 函式

val paraadd= sc.parallelize(array(1 to 100))

// 獲取外部資料

val lines: rdd[string] = sc.textfile("user.log")

RDD轉換成DataFrame的兩種方式

spark sql支援兩種不同的方式將rdd轉換為dataframe。第一種是使用反射來推斷包含特定型別物件的rdd的模式,這種基於反射的方式可以提供更簡潔的 如果在編寫spark應用程式時,已經明確了schema,可以使用這種方式。第二種方式是通過可程式設計介面來構建schema,然後將其應用於現...

執行緒建立的兩種方式

建立執行緒的兩種方式 1.繼承thread並重寫方法,在run方法中定義執行緒要執行的任務 class mythread extends thread public class threaddemo1 2.實現runable介面並重寫run方法 class myrunnable implements...

陣列的兩種建立方式

var 陣列名 new array 定義了乙個空 的陣列 var array1 new array 定義了乙個長度為6的陣列 var array2 new array 6 輸出陣列的每個值都是 undefined console.log array2 可以直接定義陣列的具體值 var array3 ...