Spark與Job Server整合原理與實戰

spark-jobserver 提供了乙個 restful 介面來提交和管理 spark 的 jobs、jars 和 job contexts。spark-jobserver專案包含了完整的 spark job server 的專案，包括單元測試和專案部署指令碼。

spark-jobserver的特性：

l 「spark as service」：針對 job 和 contexts 的各個方面提供了 rest 風格的 api 介面進行管理

l 支援 sparksql、hive、streamingcontexts/jobs 以及定製 job contexts

l 通過整合 apache shiro 來支援 ldap 許可權驗證

l 通過長期執行的job contexts支援亞秒級別低延遲的任務

l 可以通過結束 context 來停止執行的作業(job)

l 分割 jar 上傳步驟以提高 job 的啟動

l 非同步和同步的 job api，其中同步 api 對低延時作業非常有效

l 支援 standalone spark 和 mesos、yarn

l job 和 jar 資訊通過乙個可插拔的dao 介面來持久化

l 對rdd或dataframe物件命名並快取，通過該名稱獲取rdd或dataframe。這樣可以提高物件在作業間的共享和重用

l 支援 scala 2.10 版本和 2.11 版本

spark-jobserver的部署

1) 拷貝 conf/local.sh.template 檔案到 local.sh 。備註：如果需要編譯不同版本的spark，需修改 spark_version 屬性。

2) 拷貝config/shiro.i

Spark安裝與配置

安裝並使用spark。首先在官網上安裝對應版本，因為已經安裝了hadoop，選擇without hadoop版本。執行解壓修改檔名配置檔案等操作 sudo tar zxf spark 2.3.2 bin without hadoop.tgz c usr local cd usr local su...

Spark編譯與打包

進入spark根目錄下，執行 make distribution.sh tgz tgz 引數是指編譯後生成tgz包 phadoop 支援hadoop pyarn 支援yarn phive 支援hive with tachyon 支援tachyon記憶體檔案系統 name 與 tgz一起用時，name...

spark與storm比對與選型

大資料實時處理平台市場上產品眾多，本文著重討論spark與storm的比對，最後結合適用場景進行選型。一 spark與storm的比較比較點storm spark streaming 實時計算模型純實時，來一條資料，處理一條資料準實時，對乙個時間段內的資料收集起來，作為乙個rdd，再處理實時...

Spark與Job Server整合原理與實戰

Spark安裝與配置

Spark編譯與打包

spark與storm比對與選型

相關推薦