Spark簡單使用

2021-08-14 20:00:12 字數 802 閱讀 9964

spark的乙個主要特點就是可以在記憶體中使用,因此他的計算速度比較快。

在初學之前按照 quick-start.html)中的示例來做一遍。先來初步理解一下操作流程。

1.首先是搭建spark,網上有很多教程,cmd中最後執行pyspark

我們首先來分析spark資料夾中的「readme.md」檔案

lines = sc.textfile("readme.md") # 建立乙個名為lines的rdd  

>>> lines.count() # 統計rdd中的元素個數 127

>>> lines.first() # 這個rdd中的第乙個元素,也就是readme.md的第一行

這裡的語法似與python,spark的驅動器程式就是spark shell程式,驅動器程式通過sparkcontext來訪問spark, 上文的sc是spark啟動時自動建立的乙個sc變數,

我們可以看下其型別,建立乙個篩選例項

在python中有lambda 函式,當然c中也有,它代表的是匿名函式

相當於

def

haspython(line):

return 「python

" in line

spark 簡單實戰 Spark線性回歸簡單例子

這個課程以乙個專案來講解spark中怎麼使用線性回歸 邏輯回歸以及svm等演算法模型。專案主要是 航班的延遲時間,專案是按照如下的流程來講解 在模型訓練地方,詳細講解了交叉驗證的功能 老湯人工智慧 機器學習課程體系分為三部分 機器學習一之數學基礎 從微積分和線性代數兩個方面講解機器學習需要的數學知識...

Spark的UDF函式簡單使用

類似hive,spark也可以進行udf函式註冊與使用,下面就簡單的介紹一下 資料來源jeff 電影,程式設計 celestia jeff,看書 star 踢球現在我們註冊乙個函式,它可以之間統計出name對應的愛好數量 package com.jeff.udf import org.apache....

spark簡單介紹

一,spark歷史 誕生於2009年,加州大學伯克利分校rad實驗室的乙個研究專案,最初是基於hadoop mapreduce 的,發現mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。2010年3月份spark開源 2011年amp實驗室在spark上開發高階元件,例如 spark ...