Spark讀取檔案

2021-09-07 17:03:12 字數 1085 閱讀 1844

spark預設讀取的是hdfs上的檔案。

如果讀取本地檔案,則需要加file:///usr/local/spark/readme.md。 (測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行)

讀取hdfs檔案, 可以這樣指定路徑 hdfs://ns1/tmp/test.txt。

如果不指定任何字首,則使用hdfs的預設路徑/user/data/

啟動spark-shell:

由於已經在spark-defaults.conf中指定了spark.master,所以啟動時預設以standalone模式載入

1. 讀取本地檔案:

spark安裝路徑下/usr/local/spark/readme.md

然鵝使用其他路徑 /home/hadoop/king/spark/wordcount/data/test.txt

2. 讀取hdfs檔案

3. 不加任何字首

預設識別的hadoop使用者的目錄,將剛才的test.txt拷貝到目錄:hdfs://ns1/user/hadoop/ 

再次讀取:

在實際的使用中推薦使用第二種方式處理資料。

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...

spark讀取json,parquet檔案

spark支援的一些常見的格式 文字檔案,無任何的格式 json檔案,半結構化 parquet,一種流行的列式儲存格式 sequencefile,一種用於key value的hadoop檔案格式,如果需要讀hdfs資料的話,通常走hive的比較多。在企業中很少用,原因是寫sql的時候,能用spark...

spark讀取gz檔案

spark 1.5.1是支援直接讀取gz格式的壓縮包的,和普通檔案沒有什麼區別 使用spark shell進入spark shell 互動介面 輸入命令 sc.textfile huawei mr 20161120 880873 gz foreach println 回車後是可以看到該目下很多個gz...