Spark與Job Server整合原理與實戰

2021-08-03 00:17:02 字數 851 閱讀 8459

spark-jobserver 提供了乙個 restful 介面來提交和管理 spark 的 jobs、jars 和 job contexts。spark-jobserver專案包含了完整的 spark job server 的專案,包括單元測試和專案部署指令碼。

spark-jobserver的特性:

l  「spark as service」:針對 job 和 contexts 的各個方面提供了 rest 風格的 api 介面進行管理

l  支援 sparksql、hive、streamingcontexts/jobs 以及定製 job contexts

l  通過整合 apache shiro 來支援 ldap 許可權驗證

l  通過長期執行的job contexts支援亞秒級別低延遲的任務

l  可以通過結束 context 來停止執行的作業(job)

l  分割 jar 上傳步驟以提高 job 的啟動

l  非同步和同步的 job api,其中同步 api 對低延時作業非常有效

l  支援 standalone spark 和 mesos、yarn

l  job 和 jar 資訊通過乙個可插拔的dao 介面來持久化

l  對rdd或dataframe物件命名並快取,通過該名稱獲取rdd或dataframe。這樣可以提高物件在作業間的共享和重用

l  支援 scala 2.10 版本和 2.11 版本

spark-jobserver的部署

1)   拷貝 conf/local.sh.template 檔案到 local.sh 。備註:如果需要編譯不同版本的spark,需修改 spark_version 屬性。

2)   拷貝config/shiro.i

Spark安裝與配置

安裝並使用spark。首先在官網上安裝對應版本,因為已經安裝了hadoop,選擇without hadoop版本。執行解壓 修改檔名 配置檔案等操作 sudo tar zxf spark 2.3.2 bin without hadoop.tgz c usr local cd usr local su...

Spark編譯與打包

進入spark根目錄下,執行 make distribution.sh tgz tgz 引數是指編譯後生成tgz包 phadoop 支援hadoop pyarn 支援yarn phive 支援hive with tachyon 支援tachyon記憶體檔案系統 name 與 tgz一起用時,name...

spark與storm比對與選型

大資料實時處理平台市場上產品眾多,本文著重討論spark與storm的比對,最後結合適用場景進行選型。一 spark與storm的比較 比較點storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時...