14 ,spark 的檔案讀取與分塊機制

2021-09-29 20:29:10 字數 488 閱讀 5487

csv ,gz ,parquet

讀取 gz : 就像讀取普通檔案一樣 ( 因為 spark 底層為我們做了處理 )

我們的 gz 檔案 : 他是乙個 csv 壓縮來的檔案。

語法 :

val stock: dataframe = spark.read.option("header","true").option("delimiter",",").csv("s3a://lifecyclebigdata/test/data/gz")
目的 : 快速處理

就轉化成 parquet 格式 ( 列式儲存格式 ) ,更有利於 spark 對資料高速處理

目的 : 我們檢視

轉化成 csv

大量資料 : 我們要處理它,適合用 parquet

少量資料 : 我們要檢視他,適合用 csv

object test01 

}

spark檔案讀取與儲存(scala實現)

將乙個文字檔案讀取為rdd時,輸入的每一行都會成為rdd的乙個元素。也可以將多個完整的文字檔案一次性讀取為乙個pairrdd,其中鍵是檔名,值是檔案內容。讀取文字檔案 val input sc.textfile filepath 儲存為文字檔案 result.s aastextfile output...

spark讀取hdfs檔案的路徑使用正規表示式

coding utf 8 from pyspark import sparkconf from pyspark import sparkcontext import os if name main sc sparkcontext conf conf log shuangshi haibian 201...

spark讀取資料夾下的檔名稱

我之前遇到過處理日誌檔案的是檔案裡面沒有日期,日期在檔名上,後來我就上網上搜了搜,發現spark並沒有對檔名有過多的解釋,但是看到一些文章寫的是spark對檔名的操作,領略了下,把自己的想法寫出來給大家看看 def get hdfs dir input string,sc sparkcontext ...