spark sql核心API整理

2021-10-22 19:53:34 字數 894 閱讀 7003

核心api:

sparksession: spark入口

統一封裝sparkconf,sparkcontext,sqlcontext, 配置執行引數,讀取檔案,建立資料,使用sql

dataset:

統一dataset介面,其中dataframe==dataset[row]

基本實現了類似rdd的所有運算元

column: dataset的列物件

包括對列操作的基本函式

row : dataframe的行物件

包括對行操作的基本函式

encoder : 序列化

支援常用的資料型別,可以直接序列化,也支援case class自定義資料物件進行序列化

functions: dataset的內建函式

支援豐富的操作函式(聚合,collection… …)

sqlimplict: 隱式轉換

其中scala物件rdd轉換成df/ds ,df/ds使用map/flatmap方法等;

要採用的隱式轉換格式的

val spark= sparksession.()

import spark.implicts._

注意 : dataset是乙個類(rdd是乙個抽象類,而dataset不是抽象類),其中有三個引數:

sparksession(包含環境資訊)

queryexecution(包含資料和執行邏輯)

encoder[t]:資料結構編碼資訊(包含序列化、schema、資料型別)

《SparkSQL核心剖析》 物理計畫篇

物理計畫是將spark sql生成的邏輯運算元樹對映成物理運算元樹,並將邏輯計畫的資訊對映到spark core模型中的rdd transformation action的過程。生成物理計畫後,一條sql語句就變成了可以執行的spark任務。物理計畫的定義在org.apache.spark.sql....

API介面整理

阿里雲市場 聚合資料 京東永珍 阿凡達資料 apishop idataapi haoservice yesapi 果創雲開放介面 免費json api 高德地圖 搜狗地圖 丫丫天氣 和風天氣 心知天氣 彩雲天氣 免費天氣查詢 快遞網trackingmore 國際快遞 qq api 乾貨集中營 必應每...

常用API整理

using system.runtime.interopservices api32.7z 1.讀寫ini檔案 參考 c 讀寫ini檔案 dllimport kernel32 private static extern long writeprivateprofilestring string se...