spark學習之sparkSql基本操作

第一周學習總結

總結了近期學到的爬蟲知識與echarts呼叫學習，每天的**時間在2倆小時以上。

近期還會總結一下spark'得學習記錄。

三、實驗內容和要求

1．spark sql 基本操作

將下列 json 格式資料複製到 linux 系統中，並儲存命名為 employee.json。

為 employee.json 建立 dataframe，並寫出 scala 語句完成下列操作：

(1) 查詢所有資料；

(2) 查詢所有資料，並去除重複的資料；

(3) 查詢所有資料，列印時去除 id 字段；

(4) 篩選出 age>30 的記錄；

(5) 將資料按 age 分組；

(6) 將資料按 name 公升序排列；

(7) 取出前 3 行資料；

(8) 查詢所有記錄的 name 列，並為其取別名為 username；

(9) 查詢年齡 age 的平均值； 20

(10) 查詢年齡 age 的最小值。

下面的問題還未解決，總是報錯，在網上有一些解法，但我還沒做。

2．程式設計實現將 rdd 轉換為 dataframe

原始檔內容如下（包含 id,name,age）：

1,ella,36

2,bob,29

3,jack,29

請將資料複製儲存到 linux 系統中，命名為 employee.txt，實現從 rdd 轉換得到 dataframe，並按「id:1,name:ella,age:36」的格式列印出 dataframe 的所有資料。請寫出程式**。

3. 程式設計實現利用 dataframe 讀寫 mysql 的資料

（1）在 mysql 資料庫中新建資料庫 sparktest，再建立表 employee，包含如表 6-2 所示的兩行資料。

（2）配置 spark 通過 jdbc 連線資料庫 mysql，程式設計實現利用 dataframe 插入如表 6-3 所示的兩行資料到 mysql 中，最後列印出 age 的最大值和 age 的總和。

Spark學習（一）之Spark初識

1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室開發的通用記憶體平行計算框架，用來構建大型的低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源，距今6年歷史。spark執行架構的設計 cluster...

Spark學習之 Spark SQL 一

感謝大牛的系列文章,本文只是本人學習過程的記錄,首先向大神致敬 1.建立檔案people.json 2.上傳到hdfs檔案系統目錄位置 data people.json hdfs dfs put people.json data3.在hdfs中檢視檔案是否完整,如下 root hd 02 hdfs...

Spark學習之Spark調優與除錯（7）

當建立乙個sparkcontext時就會建立乙個sparkconf例項。優先順序最高的是在使用者中顯示呼叫set 方法設定選項其次是通過spark submit傳遞的引數再次是寫在配置檔案裡的值最後是系統的預設值。需求使用spark shell完成簡單的日誌分析應用。scala val i...

spark學習之sparkSql基本操作

Spark學習（一）之Spark初識

Spark學習之 Spark SQL 一

Spark學習之Spark調優與除錯（7）

相關推薦