十一 spark SQL的scala示例

spark sql官網：

sparksql是構建在sparkcore之上的元件，用於處理結構化的資料。它將資料抽象為dataframe並提供豐富的api，並且sparksql允許使用sql指令碼進行操作，使得資料查詢變得非常的容易使用。

同時，sparksql除了操作簡單，api豐富之外，對於資料來源的支援也很強大。你可以從，如：

1）hdfs

2）parguet檔案

3）json檔案

4）jdbc

5）odbc

6）hive

等多種資料來源來建立dataframe，也可以從spark的rdd轉換成dataframe。

下面是scala的**示例：

import
org.apache.spark.rdd.rdd
import
org.apache.spark.sql.
import
org.apache.spark.sql.types.
import
org.apache.spark.
/*** @description spark sql demo
* @author lay
* @date 2018/12/09 21:33
*/object sparksqldemo 
//建立dataframe
df =sqlcontext.createdataframe(userrdd, schema)
} def main(args: array[string]): unit =
}

以上**將rdd通過structtype轉換成了dataframe，然後分別採用dataframe的api和sql兩種方式查詢出了結果，如圖：

ubuntu 離線安裝做任意版本的Scala

wget c 這裡安裝的是2.11.8,如果要安裝其它版本，請在這裡找相應的鏈結 2.解壓scala tar zxf scala 2.11.8.tgz 3.建立scala目錄 mkdir usr share scala 4.拷貝scala目錄中的所有檔案至scala目錄 cd scala 2.11....

SparkSQL的發展歷史

hadoop剛開始出來的時候，使用的是 hadoop 自帶的分布式計算系統 mapreduce 但是mapreduce 的使用難度較大，所以就開發了 hive hive 程式設計用的是類 sql的 hql的語句，這樣程式設計的難度就大大的降低了，hive 的執行原理就是將 hql語句經過語法解析邏...

SparkSQL的執行模式

1 dsl模式通過呼叫方法 datafame.select name show datafame.filter age 25 show 2 sql模式通過執行sql 1 先建立一張表乙個sparkcontext可以多次建立 sparksession。session內可訪問，乙個sparkses...

十一 spark SQL的scala示例

ubuntu 離線 安裝做任意版本的Scala

SparkSQL的發展歷史

SparkSQL的執行模式

相關推薦

ubuntu 離線安裝做任意版本的Scala