Python讀寫hadoop檔案

2021-08-21 01:48:35 字數 774 閱讀 1460

這裡總結一下使用方法:

首先需要借助三方庫pyhdfs

建立乙個hadoop連線物件

hdfs_client = pyhdfs.hdfsclient(hdfs_ip,hdfs_port,hdfs_user)
假設hadoop現有目錄:/home/data/下有乙個檔案2018-06-28.out

那麼我們如何檢視該目錄下的檔案呢?

方法(類似於os)如下:

hdfs_client.listdir(『/home/data』)
如果要將該檔案拉到本地怎麼辦?

hdfs.client.copy_to_local('/home/data/2018-06-28.out','/local_path/2018-06-28.out')
如果要將本地的乙個檔案上傳到hadoop怎麼辦?

hdfs.client.copy_from_local('/local_path/2018-06-28.out','/home/data/2018-06-28.out')
如果要讀取hadoop上檔案內容怎麼辦?

with hdfs.client.open(file)as f:

data_list = f.readlines( )

for data in data_list:

print(data.decode())

隨著工作中需求的變化,部落格會持續更新

python學習筆記3 python讀寫檔案

一 檔案的開啟模式 1 開啟檔案 1 f open d a.txt w 第乙個引數是檔案的路徑,如果只寫檔案的名字,預設是在當前執行目錄下的檔案 第二個引數是檔案的開啟模式 這種方式開啟檔案,在使用完了之後一定要記得,關閉檔案 f.close 2 with open d a.txt w as f 這...

Hadoop資料讀寫原理

資料流 mapreduce作業 job 是客戶端執行的單位 它包括輸入資料 mapreduce程式和配置資訊。hadoop把輸入資料劃分成等長的小資料傳送到mapreduce,稱之為輸入分片。hadoop為每個分片建立乙個map任務,由它來執行使用者自定義的map函式來分析每個分片中的記錄。這裡分片...

Hadoop資料讀寫原理

資料流 mapreduce作業 job 是客戶端執行的單位 它包括輸入資料 mapreduce程式和配置資訊。hadoop把輸入資料劃分成等長的小資料傳送到mapreduce,稱之為輸入分片。hadoop為每個分片建立乙個map任務,由它來執行使用者自定義的map函式來分析每個分片中的記錄。這裡分片...