spark學習之sparkSql基本操作

2022-04-06 08:33:26 字數 1378 閱讀 6366

第一周學習總結

總結了近期學到的爬蟲知識與echarts呼叫學習,每天的**時間在2倆小時以上。

近期還會總結一下spark'得學習記錄。

三、實驗內容和要求

1.spark sql 基本操作

將下列 json 格式資料複製到 linux 系統中,並儲存命名為 employee.json。

為 employee.json 建立 dataframe,並寫出 scala 語句完成下列操作:

(1) 查詢所有資料;

(2) 查詢所有資料,並去除重複的資料;

(3) 查詢所有資料,列印時去除 id 字段;

(4) 篩選出 age>30 的記錄;

(5) 將資料按 age 分組;

(6) 將資料按 name 公升序排列;

(7) 取出前 3 行資料;

(8) 查詢所有記錄的 name 列,並為其取別名為 username;

(9) 查詢年齡 age 的平均值; 20

(10) 查詢年齡 age 的最小值。

下面的問題還未解決,總是報錯,在網上有一些解法,但我還沒做。

2.程式設計實現將 rdd 轉換為 dataframe

原始檔內容如下(包含 id,name,age):

1,ella,36

2,bob,29

3,jack,29 

請將資料複製儲存到 linux 系統中,命名為 employee.txt,實現從 rdd 轉換得到 dataframe,並按「id:1,name:ella,age:36」的格式列印出 dataframe 的所有資料。請寫出程式**。

3. 程式設計實現利用 dataframe 讀寫 mysql 的資料

(1)在 mysql 資料庫中新建資料庫 sparktest,再建立表 employee,包含如表 6-2 所示的 兩行資料。

(2)配置 spark 通過 jdbc 連線資料庫 mysql,程式設計實現利用 dataframe 插入如表 6-3 所 示的兩行資料到 mysql 中,最後列印出 age 的最大值和 age 的總和。

Spark學習(一)之Spark初識

1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室 開發的通用記憶體平行計算框架,用來構建大型的 低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源,距今6年歷史。spark執行架構的設計 cluster...

Spark學習之 Spark SQL 一

感謝大牛的系列文章,本文只是本人學習過程的記錄,首先向大神致敬 1.建立檔案people.json 2.上傳到hdfs檔案系統 目錄位置 data people.json hdfs dfs put people.json data3.在hdfs中檢視檔案是否完整,如下 root hd 02 hdfs...

Spark學習之Spark調優與除錯(7)

當建立乙個sparkcontext時就會建立乙個sparkconf例項。優先順序最高的是在使用者 中顯示呼叫set 方法設定選項 其次是通過spark submit傳遞的引數 再次是寫在配置檔案裡的值 最後是系統的預設值。需求 使用spark shell完成簡單的日誌分析應用。scala val i...