python HDF和CSV儲存優劣對比

2021-10-06 05:22:58 字數 2299 閱讀 8584

結論1:幾百kb以上的資料都用h5比較好

結論2:幾kb的資料h5反而很慢

import pandas as pd

import numpy as np

from wja.wja_tool import test_time as tt

from wja import wja_tool as tool

df = tool.generate_sampledf(row, col)

tt()

.run(

)df.to_csv(

'try.csv'

)tt(

).end(

)tt(

).run(

)df.to_hdf(

'try.h5'

,'df'

,mode=

'w')

tt()

.end(

)

tt()

.run(

)df1 = pd.read_csv(

'try.csv'

)tt(

).end(

)tt(

).run(

)df2 = pd.read_hdf(

'try.h5'

)tt(

).end(

)

df = tool.generate_sampledf(10,

1)

# csv儲存

# hdf儲存

# csv讀取

# hdf讀取

程式用時:

0.015

程式用時:

0.9985

程式用時:

0.009

程式用時:

# csv儲存

# hdf儲存

# csv讀取

# hdf讀取

程式用時:

0.017

程式用時:

1.1016

程式用時:

0.01

程式用時:

# csv儲存

# hdf儲存

# csv讀取

# hdf讀取

程式用時:

0.2383

程式用時:

1.0308

程式用時:

0.0499

程式用時:

0.016

df = tool.generate_sampledf(

10000

,100

)

# csv儲存

# hdf儲存

# csv讀取

# hdf讀取

程式用時:

2.0895

程式用時:

1.0073

程式用時:

0.4055

程式用時:

0.0169

# csv儲存

# hdf儲存

# csv讀取

# hdf讀取

df = tool.generate_sampledf(

10000

,1000

)

# csv儲存

# hdf儲存

# csv讀取

# hdf讀取

程式用時:

23.5693

程式用時:

2.2057

程式用時:

3.3697

程式用時:

0.0619

python HDF和CSV儲存優劣對比分析

小資料用csv,大資料用h5 結論1 幾百kb以上的資料都用h5比較好 結論2 幾kb的資料h5反而很慢 程式import pandas as pd impwww.cppcns.comort numpy as np from wja.wja tool import test time as tt f...

資料儲存 CSV檔案讀取和儲存

import csvdef read csv demo1 with open r c users administrator desktop classroom1.csv as f reader csv.reader f 構造讀取器 把檔案指標傳給csv.reader 方法並賦值給reader,返回...

CSV檔案儲存

csv檔案儲存 csv,全稱為 comma separated vaules,翻譯為逗號分隔值或字元分隔值,其檔案以純文字形式儲存 資料。該檔案是乙個字串行,可以由任意數目的記錄組成,記錄間以某種換行符分隔。每條記錄由欄位組成,字段之間的分隔符是字串或其他字元,最常見的是逗號或製表符。不過所有記錄都...