Python讀寫hadoop檔案

這裡總結一下使用方法：

首先需要借助三方庫pyhdfs

建立乙個hadoop連線物件

hdfs_client = pyhdfs.hdfsclient(hdfs_ip,hdfs_port,hdfs_user)

假設hadoop現有目錄：/home/data/下有乙個檔案2018-06-28.out

那麼我們如何檢視該目錄下的檔案呢？

方法（類似於os）如下：

hdfs_client.listdir（『/home/data』）

如果要將該檔案拉到本地怎麼辦？

hdfs.client.copy_to_local('/home/data/2018-06-28.out','/local_path/2018-06-28.out')

如果要將本地的乙個檔案上傳到hadoop怎麼辦？

hdfs.client.copy_from_local('/local_path/2018-06-28.out','/home/data/2018-06-28.out')

如果要讀取hadoop上檔案內容怎麼辦？

with hdfs.client.open(file)as f:
data_list = f.readlines( )
for data in data_list:
print(data.decode())

隨著工作中需求的變化，部落格會持續更新

python學習筆記3 python讀寫檔案

一檔案的開啟模式 1 開啟檔案 1 f open d a.txt w 第乙個引數是檔案的路徑，如果只寫檔案的名字，預設是在當前執行目錄下的檔案第二個引數是檔案的開啟模式這種方式開啟檔案，在使用完了之後一定要記得，關閉檔案 f.close 2 with open d a.txt w as f 這...

Hadoop資料讀寫原理

資料流 mapreduce作業 job 是客戶端執行的單位它包括輸入資料 mapreduce程式和配置資訊。hadoop把輸入資料劃分成等長的小資料傳送到mapreduce，稱之為輸入分片。hadoop為每個分片建立乙個map任務，由它來執行使用者自定義的map函式來分析每個分片中的記錄。這裡分片...

Python讀寫hadoop檔案

python學習筆記3 python讀寫檔案

Hadoop資料讀寫原理

Hadoop資料讀寫原理

相關推薦