pyspark讀取csv檔案建立DataFrame

mark一下，感謝作者分享！

方法一：用pandas輔助

from pyspark import sparkcontext

from pyspark.sql import sqlcontext

import pandas as pd

sc = sparkcontext()

sqlcontext=sqlcontext(sc)

df=pd.read_csv(r』game-clicks.csv』)

sdf=sqlc.createdataframe(df)

檔案不大的情況下可以

方法二：純spark

from pyspark import sparkcontext

from pyspark.sql import sqlcontext

sc = sparkcontext()

sqlcontext = sqlcontext(sc)

sqlcontext.read.format(『com.databricks.spark.csv』).options(header=』true』, inferschema=』true』).load(『game-clicks.csv』)

需要com.databricks.spark.csv環境

方法三：pyspark.sql import sparksession（spark 2.x）

檢查csv檔案是否標準

filepath = 「main_amount.csv」

main_amount = sc.textfile(filepath)

print(main_amount.count())

header = main_amount.first()

main_amount_data = main_amount.filter(lambda lines: lines != header)

header_columns = header.split(『,』)

main_amount_data = main_amount_data.map(lambda line: line.split(『,』))

print(len(header_columns)) 輸出12列

//print(main_amount_data.take(2))

fields_len = main_amount_data.map(lambda fields: len(fields)).countbyvalue()

print(fields_len)

輸出：發現列數不一致,並且部分資料行超過header_columns。

1、用pandas讀將不會自動分割『，』

2、com.databricks.spark.csv和sparksession下read.csv會報錯

pyspark讀取csv文字儲存至MySQL案例

我們在使用spark處理完資料時，經常要將處理好的結果資料儲存的如mysql等關係型資料庫中，下面我們通過乙個示例說明如何將spark處理好的資料儲存到mysql中檔案student.csv id,name,age 1,張三,23 2,李四,24from pyspark.sql.session i...

讀取 CSV 檔案

csv檔案即 csv comma separate values 用逗號分隔值,可以用excel開啟檢視由於是純文字,任何編輯器都快可以開啟檢視.與excel不同的是,在csv檔案中 1.值沒有型別,所有值都是字串 2.不能指定字型顏色等樣式 3.不能指定單元格的寬高,不能合併單元格 4.沒有多...

php讀取csv檔案

開始討論php操作csv檔案的問題之前，我們先首先了解一下什麼是csv檔案。csv是最通用的一種檔案格式，它可以非常容易地被匯入各種pc 及資料庫中。此檔案，一行即為資料表的一行。生成資料表字段用半形逗號隔開。了解到這裡我們看清楚了csv檔案的最大特點，以行排列，每行中的每個數值用逗號隔開。看到這裡...

pyspark讀取csv檔案建立DataFrame

pyspark讀取csv文字儲存至MySQL案例

讀取 CSV 檔案

php讀取csv檔案

相關推薦