spark使用parallelize方法建立RDD

通過呼叫sparkcontext的parallelize方法，在乙個已經存在的scala集合上建立的（乙個seq物件）。集合的物件將會被拷貝，建立出乙個可以被並行操作的分布式資料集。

[python]view plain

copy

data = [1,

2, 3,

4, 5]

distdata = sc.parallelize(data)

一旦分布式資料集（distdata）被建立好，它們將可以被並行操作。例如，我們可以呼叫distdata.reduce(lambda a, b: a + b)來將陣列的元素相加。我們會在後續的分布式資料集運算中進一步描述。

並行集合的乙個重要引數是slices，表示資料集切分的份數。spark將會在集群上為每乙份資料起乙個任務。典型地，你可以在集群的每個cpu上分布2-4個slices. 一般來說，spark會嘗試根據集群的狀況，來自動設定slices的數目。然而，你也可以通過傳遞給parallelize的第二個引數來進行手動設定。（例如：sc.parallelize(data, 10)).

spark使用parallelize方法建立RDD

Parallel使用的注意事項（CPU過高）

Oracle並行模式（Parallel）

oracle並行模式（Parallel）

spark使用parallelize方法建立RDD

Parallel使用的注意事項（CPU過高）

Oracle並行模式（Parallel）

oracle並行模式（Parallel）

相關推薦