flink在批處理中常見的source主要有兩大類:
1.基於本地集合的source(collection-based-source)
2.基於檔案的source(file-based-source)
1.基於本地集合的source
在flink最常見的建立dataset方式有三種。
1.使用env.fromelements(),這種方式也支援tuple,自定義物件等復合形式。
2.使用env.fromcollection(),這種方式支援多種collection的具體型別
3.使用env.generatesequence()方法建立基於sequence的dataset
importorg.apache.flink.api.scala.
import
scala.collection.immutable.
import
scala.collection.mutable
import
scala.collection.mutable.
object datasource001
}
flink支援多種儲存裝置上的檔案,包括本地檔案,hdfs檔案,alluxio檔案等。flink支援多種檔案的儲存格式,包括text檔案,csv檔案等。
importorg.apache.flink.api.scala.
object datasource002
}
flink支援對乙個檔案目錄內的所有檔案,包括所有子目錄中的所有檔案的遍歷訪問方式。
importorg.apache.flink.api.scala.executionenvironment
import
org.apache.flink.configuration.configuration
/*** 遞迴讀取hdfs目錄中的所有檔案,會遍歷各級子目錄
*/object datasource003
}
flink 三 flink批處理
datasource型別運算元 val environment executionenvironment executionenvironment.getexecutionenvironment 支援多種collection的具體型別 val datasource1 dataset string e...
Flink學習系列之二 Flink批處理
此時我們可以使用flink的批處理,我的data目錄下有a.txt檔案,輸入任意的單詞,然後我們開始統計。如下 public class batchhandler groupby 0 sum 1 filepath 檔案輸出結果檔案 n 以換行符作為每行結束條件 以空格分割單詞 setparallel...
批處理中的
如果是 a 這種形式 就是變數的引用,echo off set a 123 rem定義乙個變數a 賦值為123 echo a rem顯示出變數a的值 如果不加 系統會把a當字元處理了,不會當成變數的 i 這種變數是for 語句裡面 特有的變數 還有一種是外部變數,接受外部引數的格式是 1 9 共9個...