pyspark讀取csv檔案建立DataFrame

2021-08-20 05:24:42 字數 1388 閱讀 9726

mark一下,感謝作者分享!

方法一:用pandas輔助

from pyspark import sparkcontext

from pyspark.sql import sqlcontext

import pandas as pd

sc = sparkcontext()

sqlcontext=sqlcontext(sc)

df=pd.read_csv(r』game-clicks.csv』)

sdf=sqlc.createdataframe(df)

檔案不大的情況下可以

方法二:純spark

from pyspark import sparkcontext

from pyspark.sql import sqlcontext

sc = sparkcontext()

sqlcontext = sqlcontext(sc)

sqlcontext.read.format(『com.databricks.spark.csv』).options(header=』true』, inferschema=』true』).load(『game-clicks.csv』)

需要com.databricks.spark.csv環境

方法三:pyspark.sql import sparksession(spark 2.x)

檢查csv檔案是否標準

filepath = 「main_amount.csv」

main_amount = sc.textfile(filepath)

print(main_amount.count())

header = main_amount.first()

main_amount_data = main_amount.filter(lambda lines: lines != header)

header_columns = header.split(『,』)

main_amount_data = main_amount_data.map(lambda line: line.split(『,』))

print(len(header_columns)) 輸出12列

//print(main_amount_data.take(2))

fields_len = main_amount_data.map(lambda fields: len(fields)).countbyvalue()

print(fields_len)

輸出:發現列數不一致,並且部分資料行超過header_columns。

1、用pandas讀將不會自動分割『,』

2、com.databricks.spark.csv和sparksession下read.csv會報錯

pyspark讀取csv文字儲存至MySQL案例

我們在使用spark處理完資料時,經常要將處理好的結果資料儲存的如mysql等關係型資料庫中,下面我們通過乙個示例說明如何將spark處理好的資料儲存到mysql中 檔案student.csv id,name,age 1,張三,23 2,李四,24from pyspark.sql.session i...

讀取 CSV 檔案

csv檔案 即 csv comma separate values 用逗號分隔值,可以用excel開啟檢視 由於是純文字,任何編輯器都快可以開啟檢視.與excel不同的是,在csv檔案中 1.值沒有型別,所有值都是字串 2.不能指定字型顏色等樣式 3.不能指定單元格的寬高,不能合併單元格 4.沒有多...

php讀取csv檔案

開始討論php操作csv檔案的問題之前,我們先首先了解一下什麼是csv檔案。csv是最通用的一種檔案格式,它可以非常容易地被匯入各種pc 及資料庫中。此檔案,一行即為資料表的一行。生成資料表字段用半形逗號隔開。了解到這裡我們看清楚了csv檔案的最大特點,以行排列,每行中的每個數值用逗號隔開。看到這裡...