python讀取hdfs並返回dataframe

2021-08-26 23:38:50 字數 839 閱讀 5389

不多說,直接上**

filename = "/tmp/preprocess/part-00000" #hdfs檔案路徑

columnnames = [xx']

def readhdfs():

讀取hdfs檔案

returns:

df:dataframe hdfs資料

client = client(hdfshost)

# 目前讀取hdfs檔案採用方式:

# 1. 先從hdfs讀取二進位制資料流檔案

# 2. 將二進位制檔案另存為.csv

# 3. 使用pandas讀取csv檔案

with client.read(filename) as fs:

content = fs.read()

s = str(content, 'utf-8')

file = open("data/tmp/data.csv", "w")

file.write(s)

df = pd.read_csv("data/tmp/data.csv", names=columnnames)

return df

知乎: 

下面是讚賞碼

python讀取hdfs資料

載入包from hdfs.client import client self.filename user hdfs read.txt 讀取hdfs檔案內容,將每行存入陣列返回def read hdfs file self with client.read samples.csv encoding u...

Django讀取XML並返回XML

用django對ncclient的介面進行封裝,需要post的資料為xml格式,讀取後傳給ncclient介面的格式仍然是讀取的xml並返回xml格式的響應 我用的xml文字,如 xmlns urn ietf params xml ns netconf base 1.0 xmlns xc urn i...

python讀取hdfs上的parquet檔案方式

在使用python做大資料和機器學習處理過程中,首先需要讀取hdfs資料,對於常用格式資料一般比較容易讀取,parquet略微特殊。從hdfs上使用python獲取parquet格式資料的方法 當然也可以先把檔案拉到本地再讀取也可以 1 安裝anaconda環境。2 安裝hdfs3。conda in...