14 ，spark 的檔案讀取與分塊機制

csv ，gz ，parquet

讀取 gz ：就像讀取普通檔案一樣 ( 因為 spark 底層為我們做了處理 )

我們的 gz 檔案：他是乙個 csv 壓縮來的檔案。

語法：

val stock: dataframe = spark.read.option("header","true").option("delimiter",",").csv("s3a://lifecyclebigdata/test/data/gz")

目的：快速處理

就轉化成 parquet 格式 ( 列式儲存格式 ) ，更有利於 spark 對資料高速處理

目的：我們檢視

轉化成 csv

大量資料：我們要處理它，適合用 parquet

少量資料：我們要檢視他，適合用 csv

object test01 
}

spark檔案讀取與儲存（scala實現）

將乙個文字檔案讀取為rdd時，輸入的每一行都會成為rdd的乙個元素。也可以將多個完整的文字檔案一次性讀取為乙個pairrdd,其中鍵是檔名，值是檔案內容。讀取文字檔案 val input sc.textfile filepath 儲存為文字檔案 result.s aastextfile output...

spark讀取hdfs檔案的路徑使用正規表示式

coding utf 8 from pyspark import sparkconf from pyspark import sparkcontext import os if name main sc sparkcontext conf conf log shuangshi haibian 201...

spark讀取資料夾下的檔名稱

我之前遇到過處理日誌檔案的是檔案裡面沒有日期，日期在檔名上，後來我就上網上搜了搜，發現spark並沒有對檔名有過多的解釋，但是看到一些文章寫的是spark對檔名的操作，領略了下，把自己的想法寫出來給大家看看 def get hdfs dir input string,sc sparkcontext ...

14 ，spark 的檔案讀取與分塊機制

spark檔案讀取與儲存（scala實現）

spark讀取hdfs檔案的路徑使用正規表示式

spark讀取資料夾下的檔名稱

相關推薦