SPARK CORE python程式設計

2021-08-21 23:31:45 字數 1457 閱讀 6734

一、spark core的使用

1.在jupyter網頁上建立新的ipynb檔案

2.環境準備**

import os

import sys

spark_home = os.environ.get('spark_home',none)

if not spark_home:

raise valueerror('spark_home enviroment variable is not set')

sys.path.insert(0,os.path.join(spark_home,'python'))

sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))

exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())

執行後顯示

二、概念

1.spark core:spark生態圈的核心

rdd:容錯性分布資料(resilient distributed dataset),spark core的任務就是對這些資料進行分布式計算

2.rdd型別:

對rdd的操作

3.並行化集合(我們處裡的rdd資料,所有對於集合而言,第一步需要並行化)

可以看到我們的集合已經成功並行化

4.取值操作

take(n):從rdd返回n個元素

top(num):從rdd返回最大的num個數的元素

first():從rdd返回第乙個元素

collect():從rdd返回所有元素

5.rdd元素變換

靜態聯編與動態聯編

在c 中,多型性主要是通過函式過載實現的。過載函式是指程式中對同名函式進行呼叫時,編譯器會根據函式引數的型別和個數,決定該呼叫哪一段函式 來處理這個函式呼叫。這種把函式呼叫與適當的函式 相對應的動作,叫做聯編。聯編分為靜態聯編和動態聯編。在編譯階段決定執行哪個同名的被呼叫函式,稱為靜態聯編。在編譯階...

靜態聯編和動態聯編

聯編是指乙個電腦程式自身彼此關聯 使乙個 源程式經過編譯 連線,成為乙個可執行程式 的過程,在這個聯編過程中,需要確定程式中的操作呼叫 函式呼叫 與執行該操作 函式 的 段之間的對映關係,按照聯編所進行的階段不同,可分為靜態聯編和動態聯編。靜態聯編 呼叫函式和被調函式在程式編譯時,他們在記憶體中的位...

靜態聯編和動態聯編

聯編就是將模組或者函式合併在一起生成可執行 的處理過程,同時對每個模組或者函式呼叫分配記憶體位址,並且對外部訪問也分配正確的記憶體位址,它是電腦程式彼此關聯的過程。按照聯編所進行的階段不同,可分為兩種不同的聯編方法 靜態聯編和動態聯編。靜態聯編是指在編譯階段就將函式實現和函式呼叫關聯起來,因此靜態聯...