Python 加速資料讀取

2021-10-12 17:56:21 字數 563 閱讀 5920

正常情況下讀取csv檔案習慣使用pandas庫中的read_csv函式

import pandas as pd

data = pd.read_csv('路徑')

但是這兩天處理gb級資料時,發現速度太慢,於是分享兩種加速方法

第一種 使用datatable庫中的fread函式

import datatable as dt

data = dt.fread('路徑').to_pandas #如果加.to_pandas 與pd.read_csv讀取的資料格式一樣

example:讀取相同資料集,datatable只用了16s,而pandas用了2min48s

第二種 使用cudf庫加速

cudf好像只有在linux系統下才能配置

github:

感興趣的可以配置試試

如果懶得配置的使用第一種方式足夠了

Python 讀取資料

將乙個資料夾下面的影象和對應的pts讀進來,然後把pts檔案裡面的資料讀入乙個陣列,然後畫到影象上 coding utf 8 測試資料樣例 讀取 image cv2.imread fullpath 讀取對應的pts檔案 landmarks readlmk ptsfile for point in l...

Python 讀取資料

將乙個資料夾下面的影象和對應的pts讀進來,然後把pts檔案裡面的資料讀入乙個陣列,然後畫到影象上 coding utf 8 測試資料樣例 讀取 image cv2.imread fullpath 讀取對應的pts檔案 landmarks readlmk ptsfile for point in l...

python讀取hdfs資料

載入包from hdfs.client import client self.filename user hdfs read.txt 讀取hdfs檔案內容,將每行存入陣列返回def read hdfs file self with client.read samples.csv encoding u...