Spark學習之 Spark SQL 一

感謝大牛的系列文章, 本文只是本人學習過程的記錄, 首先向大神致敬!

1.建立檔案people.json

2.上傳到hdfs檔案系統目錄位置: /data/people.json

hdfs dfs -put ./people.json /data

3.在hdfs中檢視檔案是否完整,如下

[root@hd-02 ~]# hdfs dfs -cat /data/people.json
[root@hd-02 ~]#

4.啟動spark shell , 並執行如下**:

bin/spark-shell
scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc)
scala> val df = sqlcontext.read.json("hdfs://hd-01:9000/data/people.json")

5.測試

scala> df.show
+----+-------+
| age| name|
+----+-------+
|null|michael|
| 30| andy|
| 19| justin|
+----+-------+
scala> df.printschema()
root
|-- age: long (nullable = true)
|-- name: string (nullable = true)
scala> df.select("name").show
+-------+
| name|
+-------+
|michael|
| andy|
| justin|
+-------+
scala> df.filter( df("age") > 21 ).show
+---+----+
|age|name|
+---+----+
| 30|andy|
+---+----+
scala> df.registertemptable("people")
scala> val teenagers = sqlcontext.sql("select name, age from people where age >= 13 and age <= 19")
teenagers: org.apache.spark.sql.dataframe = [name: string, age: bigint]
scala> teenagers.map(t => "name: " + t(0)).collect().foreach(println)
name: justin

Spark學習（一）之Spark初識

1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室開發的通用記憶體平行計算框架，用來構建大型的低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源，距今6年歷史。spark執行架構的設計 cluster...

Spark學習之Spark調優與除錯（7）

當建立乙個sparkcontext時就會建立乙個sparkconf例項。優先順序最高的是在使用者中顯示呼叫set 方法設定選項其次是通過spark submit傳遞的引數再次是寫在配置檔案裡的值最後是系統的預設值。需求使用spark shell完成簡單的日誌分析應用。scala val i...

spark機器學習實現之fpgrowth

很久之前就像寫一些關於資料探勘演算法的東西，因為懶現在才開始動手，因為fpgrowth演算法在mlib中的實現相對比較簡單，所以打算先拿它下手。關於fpgrowth的原理本人說的也不專業，推薦這裡主要寫一下在mlib當中，實現的乙個過程先上 logger.getlogger org setle...

Spark學習之 Spark SQL 一

Spark學習（一）之Spark初識

Spark學習之Spark調優與除錯（7）

spark機器學習實現之fpgrowth

相關推薦