spark textFile讀取多個檔案

2022-08-17 16:57:21 字數 1439 閱讀 3972

1.1 簡單讀取檔案

val spark =sparksession.builder()

"demo")

.master(

"local[3]")

.getorcreate()

//讀取hdfs檔案目錄

spark.sparkcontext.textfile("

/user/data")

spark.sparkcontext.textfile(

"hdfs:")

//讀取本地目錄

spark.sparkcontext.textfile("

file://user/data

")

1.2 正則模式讀取檔案

val spark =sparksession.builder()

"demo")

.master(

"local[3]")

.getorcreate()

//讀取hdfs檔案目錄

spark.sparkcontext.textfile("

/user/data/201908/0[1-9]/*

")

2.1 將多個檔案變成乙個 list 作為引數

正確寫法:sc.textfile( filename1 + "," + filename2 + "," + filename3)

val spark =sparksession.builder()

"demo")

.master(

"local[3]")

.getorcreate()

val filelist = array("

/user/data/source1

","/user/data/source2

","/user/data/source3")

//讀取hdfs檔案目錄

spark.sparkcontext.textfile(filelist.mkstring("

,"))

2.2 使用 union 連線

val spark =sparksession.builder()

"demo")

.master(

"local[3]")

.getorcreate()

val filelist = array("

/user/data/source1

","/user/data/source2

","/user/data/source3")

//array[rdd]

val filerdd:array[rdd[string]] =filelist.map(spark.sparkcontext.textfile(_)

spark.sparkcontext.union(filerdd)

spark textFile 困惑與解釋

在mapreduce框架中,shuffle是連線map和reduce之間的橋梁,map的輸出要用到reduce中必須經過shuffle這個環節,shuffle的效能高低直接影響了整個程式的效能和吞吐量。spark作為mapreduce框架的一種實現,自然也實現了shuffle的邏輯。shuffle是...

C 讀取 讀取XML

讀取xml到listbox combobox 1,知識需求 1 訪問xml檔案的兩個基本模型 一,dom模型 使用dom的好處在於它允許編輯和更新xml文件,可以隨機訪問文件中的資料,可以使用xpath查詢,但是,dom的缺點在於它需要一次性的載入整個文件到記憶體中,對於大型的文件,這會造成資源問題...

讀取excel PySpark讀取Excel

日常工作中,客戶通過excel提供資料是一種很常見的方式,既然碰到了就得解決。我常用的辦法就是pandas讀取,並儲存為parquet,如果只讀取乙個sheet,import pandas as pddf pd.read excel excel1.xlsx df.to parquet excel e...