關於spark2 x後的SparkSession

2021-08-16 17:07:45 字數 816 閱讀 2714

apache spark2.0 引入了sparksession,其為使用者提供了乙個統一的切入點來使用spark的各項功能,並且允許使用者通過它呼叫dataframe和dataset相關api來編寫spark程式。最重要的是,它減少了使用者需要了解的一些概念,使得我們可以很容易地與spark互動,在sparksession中封裝了sparkcontext,sparkconf等,為了解決使用者可能對sparkcontext的混亂(不知道當時使用的哪乙個context),使用的時候就和sparkcontext差不多;

val spark=sparksession.builder().master("local").getorcreate().config("key","value") //工廠創造

spark.read.textfile(path:string),除了textfile,還有load,csv,json,text,format,jdbc等讀取方法;封裝了;很是方便的;

sparksession中部分原始碼如下:

@inte***cestability.stable

class builder extends logging

val sparkcontext = usersuppliedcontext.getorelse 

} val sc = sparkcontext.getorcreate(sparkconf)

// maybe this is an existing sparkcontext, update its sparkconf which maybe used

// by sparksession

Spark2 X的記憶體管理模型

spark2.x的記憶體管理模型如下圖所示 spark中的記憶體使用大致包括兩種型別 執行和儲存。執行記憶體是指用於用於shuffle join 排序 聚合等計算的記憶體,而儲存記憶體是指用於在集群中持久化和廣播內部資料的記憶體。在spark中,執行記憶體和儲存記憶體共享乙個統一的區域。當沒有使用執...

CDH5 11安裝spark2 x詳細步驟

簡介 在我的cdh5.11集群中,預設安裝的spark是1.6版本,這裡需要將其公升級為spark2.x版本。經查閱官方文件,發現spark1.6和2.x是可以並行安裝的,也就是說可以不用刪除預設的1.6版本,可以直接安裝2.x版本,它們各自用的埠也是不一樣的。我嘗試了安裝spark2.0版本和sp...

關於Spark和Spark的學習資料

hadoop社群依然發展迅速,2014年推出了2.3,2.4,2.5 的社群版本,比如增強 resource manager ha,yarn rest api,acl on hdfs,改進 hdfs 的 web ui hadoop roadmap 根據我的觀察,主要更新在yarn,hdfs,而map...