學習進度03

2022-09-24 00:12:17 字數 558 閱讀 9012

今天繼續學習sparksql的核心程式設計

在 spark sql 中 sparksession 是建立 dataframe 和執行 sql 的入口,建立 dataframe

有三種方式:通過 spark 的資料來源進行建立;從乙個存在的 rdd 進行轉換;還可以從 hive

table 進行查詢返回。

1)從 spark 資料來源進行建立

➢檢視 spark 支援建立檔案的資料來源格式

scala> spark.read

➢ 在 spark 的 bin/data 目錄中建立 user.json 檔案

➢ 讀取 json 檔案建立 dataframe

scala> val df = spark.read.json("data/user.json")

注意:如果從記憶體中獲取資料,spark 可以知道資料型別具體是什麼。如果是數字,預設作

為 int 處理;但是從檔案中讀取的數字,不能確定是什麼型別,所以用 bigint 接收,可以和

long 型別轉換,但是和 int 不能進行轉換

最後複習了一下scala的函式式程式設計

學習進度03

import reimport requests def parse page url headers resp requests.get url,headers text resp.text re.dotall 也可以匹配換行符 titles re.findall r text,re.dotall...

學習進度筆記03

定義tensorflow的物件tf,通過tf呼叫相應的操作來定義陣列 該操作是定義乙個三行三列的數值為0數值型別為float32的二維陣列 該操作是已知乙個陣列x,然後定義乙個與x行數和列數都相同的所有值都為0的陣列 該操作是定義乙個值全都是1,4行4列的矩陣,且分隔符是空格 該操作是給出乙個開始數...

學習進度條03

星期日星期一 星期二星期三 星期四星期五 星期六所花時間 包括上課 8 30 11 00 08 00 10 00 15 00 17 00 15 53 17 42 18 30 21 32 18 00 21 15 17 30 18 00 19 23 21 30 09 35 12 30 量 行 75行45...