使用Spark SQL構建批處理程式

2021-08-21 10:42:37 字數 986 閱讀 2760

streamingpro目前已經涵蓋流式/批處理,以及互動查詢三個領域,實現配置和sql化

今天介紹利用 streamingpro 完成批處理的流程。

我們假設您將檔案放在了/tmp目錄下。

gist

在批處理模式下,所有的資料來源和輸出都各自有乙個固定的模組(使用了spark的datasource api),然後對模組做配置即可,無需使用不同的模組。

在這個示例裡,你需要配置上es集群作為輸入,配置hdfs作為輸出,從而完成執行。

local模式:

cd  $spark_home

--master local[2] \

--name test \

/tmp/streamingpro-0.4.1-snapshot-online-1.6.1.jar \

-streaming.name test \

-streaming.platform spark \

-streaming.job.file.path file:///tmp/test.json

訪問

可進入spark ui

集群模式:

cd  $spark_home

--master yarn-cluster \

--name test \

/tmp/streamingpro-0.4.1-snapshot-online-1.6.1.jar \

-streaming.name test \

-streaming.platform spark \

-streaming.job.file.path hdfs://cluster/tmp/test.json

這裡需要注意的是,配置檔案並蓄放到hdfs上,並且需要協商hdfs字首。這是乙個標準的spark 批處理程式

使用Spark SQL構建批處理程式

今天介紹利用 streamingpro 完成批處理的流程。我們假設您將檔案放在了 tmp目錄下。gist local模式 cd spark home master local 2 name test tmp streamingpro 0.2.1 snapshot dev 1.6.1.jar stre...

Spark SQL和特徵處理

spark資料處理方式主要有三種 rdd dataframe spark sql 三者的主要差異在於是否定義schema rdd的資料未定義schema 也就是未定義欄位名及資料型別 使用上必須有map reduce的概念,需要高階別的程式設計能力。但是功能也最強,能完成所有spark功能。spar...

使用批處理檔案

字尾是bat的檔案就是批處理檔案,是一種文字檔案。簡單的說,它的作用就是自動的連續執行多條命令,批處理檔案的內容就是一條一條的命令。那它有什麼用呢?比如,在啟痺ps軟體時,每次都必須執行 c cd wps c wps spdos c wps py c wps wbx c wps wps 如果每次用w...