Spark學習之 Spark SQL 一

2021-08-26 05:36:04 字數 1524 閱讀 5936

感謝大牛的系列文章, 本文只是本人學習過程的記錄, 首先向大神致敬!

1.建立檔案people.json

2.上傳到hdfs檔案系統  目錄位置:  /data/people.json

hdfs dfs -put ./people.json /data
3.在hdfs中檢視檔案是否完整,如下

[root@hd-02 ~]# hdfs dfs -cat /data/people.json

[root@hd-02 ~]#

4.啟動spark shell , 並執行如下**:

bin/spark-shell

scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc)

scala> val df = sqlcontext.read.json("hdfs://hd-01:9000/data/people.json")

5.測試

scala> df.show

+----+-------+

| age| name|

+----+-------+

|null|michael|

| 30| andy|

| 19| justin|

+----+-------+

scala> df.printschema()

root

|-- age: long (nullable = true)

|-- name: string (nullable = true)

scala> df.select("name").show

+-------+

| name|

+-------+

|michael|

| andy|

| justin|

+-------+

scala> df.filter( df("age") > 21 ).show

+---+----+

|age|name|

+---+----+

| 30|andy|

+---+----+

scala> df.registertemptable("people")

scala> val teenagers = sqlcontext.sql("select name, age from people where age >= 13 and age <= 19")

teenagers: org.apache.spark.sql.dataframe = [name: string, age: bigint]

scala> teenagers.map(t => "name: " + t(0)).collect().foreach(println)

name: justin

Spark學習(一)之Spark初識

1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室 開發的通用記憶體平行計算框架,用來構建大型的 低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源,距今6年歷史。spark執行架構的設計 cluster...

Spark學習之Spark調優與除錯(7)

當建立乙個sparkcontext時就會建立乙個sparkconf例項。優先順序最高的是在使用者 中顯示呼叫set 方法設定選項 其次是通過spark submit傳遞的引數 再次是寫在配置檔案裡的值 最後是系統的預設值。需求 使用spark shell完成簡單的日誌分析應用。scala val i...

spark機器學習實現之fpgrowth

很久之前就像寫一些關於資料探勘演算法的東西,因為懶現在才開始動手,因為fpgrowth演算法在mlib中的實現 相對比較簡單,所以打算先拿它下手。關於fpgrowth的原理本人說的也不專業,推薦 這裡主要寫一下在mlib當中,實現的乙個過程 先上 logger.getlogger org setle...