Spark讀取檔案

spark預設讀取的是hdfs上的檔案。

如果讀取本地檔案，則需要加file:///usr/local/spark/readme.md。 (測試時候發現，本地檔案必須在spark的安裝路徑內部或者平行)

讀取hdfs檔案, 可以這樣指定路徑 hdfs://ns1/tmp/test.txt。

如果不指定任何字首，則使用hdfs的預設路徑/user/data/

啟動spark-shell:

由於已經在spark-defaults.conf中指定了spark.master，所以啟動時預設以standalone模式載入

1. 讀取本地檔案:

spark安裝路徑下/usr/local/spark/readme.md

然鵝使用其他路徑 /home/hadoop/king/spark/wordcount/data/test.txt

2. 讀取hdfs檔案

3. 不加任何字首

預設識別的hadoop使用者的目錄，將剛才的test.txt拷貝到目錄：hdfs://ns1/user/hadoop/

再次讀取：

在實際的使用中推薦使用第二種方式處理資料。

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案，則需要加file usr local spark readme.md。測試時候發現，本地檔案必須在spark的安裝路徑內部或者平行讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首，則使用hd...

spark讀取json，parquet檔案

spark支援的一些常見的格式文字檔案，無任何的格式 json檔案，半結構化 parquet，一種流行的列式儲存格式 sequencefile，一種用於key value的hadoop檔案格式，如果需要讀hdfs資料的話，通常走hive的比較多。在企業中很少用，原因是寫sql的時候，能用spark...

spark讀取gz檔案

spark 1.5.1是支援直接讀取gz格式的壓縮包的，和普通檔案沒有什麼區別使用spark shell進入spark shell 互動介面輸入命令 sc.textfile huawei mr 20161120 880873 gz foreach println 回車後是可以看到該目下很多個gz...

Spark讀取檔案

Spark讀取檔案

spark讀取json，parquet檔案

spark讀取gz檔案

相關推薦