spark讀取json,parquet檔案

2021-07-23 01:56:36 字數 474 閱讀 8485

spark支援的一些常見的格式:

文字檔案,無任何的格式

json檔案,半結構化

parquet,一種流行的列式儲存格式

sequencefile,一種用於key-value的hadoop檔案格式,如果需要讀hdfs資料的話,通常走hive的比較多。

在企業中很少用,原因是寫sql的時候,能用sparksession解決的,都不會去弄rdd的各種transform和action

importorg.apache.spark.sparkconf

importorg.apache.spark.sql.sparksession

/*** created by zengxiaosen on 16/9/23.

*/objectoperjson_and_parquet

}

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...

spark讀取gz檔案

spark 1.5.1是支援直接讀取gz格式的壓縮包的,和普通檔案沒有什麼區別 使用spark shell進入spark shell 互動介面 輸入命令 sc.textfile huawei mr 20161120 880873 gz foreach println 回車後是可以看到該目下很多個gz...