SparkSQL之關聯mysql和hive查詢

2021-10-23 01:43:19 字數 1407 閱讀 6732

create database spark;

use spark;

create table dept(

deptno int(2) primary key,

dname varchar(14),

loc varchar(13)

);insert into dept value(10, 'accounting','new york');

insert into dept value(20, 'research','dalas');

insert into dept value(30, 'sales','chicago');

insert into dept value(40, 'operations','boston');

create table emp(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

) row format delimited fields terminated by '\t';

準備文字資料emp.txt

1       tom     clerk   9088    1980-12-09      800.0   null    20

2 vincent cl 9999 1992-03-04 1000.0 300.1 30

5 sofia salesman 8000 1996-02-22 100.0 908 20

將資料匯入到hive中:

hive> load data local inpath '/home/iie4bu/data/emp.txt' overwrite into table emp;

package cn.ac.iie.spark

import org.apache.spark.sql.sparksession

/** * 使用外部資料來源綜合查詢hive和mysql的表資料

*/ def main

(args: array[string]

): unit =

}

**需要匯入mysql驅動jars ,所以在spark-shell中執行:

如何用SparkSQL 建立kudu的關聯表

從kudu的官方文件中可以看到spark 如何整合kudu的。從文件中的demo可以看到,kudu表的建立只能呼叫nosql api 來實現,無法通過spark sql直接建立一張kudu表。spark sql查詢kudu表也是先註冊一張臨時表後,才能用sql 語句查詢的。那麼有沒有方法在spark...

Spark Sql之DataFrame實戰詳解

在spark 1.3新加的最重要的新特性之一dataframe的引入,很類似在r語言中的dataframe的操作,使得spark sql更穩定高效。1 dataframe簡介 在spark中,dataframe是一種以rdd為基礎的分布式資料據集,類似於傳統資料庫聽二維 dataframe帶有sch...

SparkSQL之更改表結構

本文篇幅較短,內容源於自己在使用sparksql時碰到的乙個小問題,因為在之後的資料處理過程中多次使用,所以為了加深印象,在此單獨成文,以便回顧。在使用sparksql進行資料處理時,碰到這樣一種情況 需要更改dataframe當中某個欄位的型別。簡而言之,就是需要更改sparksql的表結構。出於...