h5檔案簡介

2022-07-12 11:39:08 字數 915 閱讀 4126

h5檔案是層次格式的第5代版本,用於儲存科學資料的一種檔案格式和庫檔案,由美國超級計算中心與應用中心研發的檔案格式,用以儲存和組織大規模資料.

h5將檔案結構簡化成兩個主要的物件型別:

1 資料集dataset,就是同一型別資料的多維陣列

2 組group,是一種容器結構,可以包含資料集和其他組,若乙個檔案中存放了不同種類的資料集,這些資料集的管理就用到了group

直觀的理解,可以參考我們的檔案系統,不同的檔案存放在不同的目錄下:

目錄就是hdf5檔案中的group,描述了資料集dataset的分類資訊,通過group有效的將多種dataset進行管理和劃分

檔案就是hdf5檔案中的dataset,表示具體的資料

下圖就是資料集和組的關係:

h5檔案是一種真正的層次結構,檔案系統式的資料型別.另外在資料集中還有元資料,即metadata

對於每乙個dataset而言,除了資料本身之外,這個資料集還有很多的屬性資訊.在hdf5中,同時支援儲存資料集對應的屬性資訊,所有的屬性資訊的集合叫做metadata,下圖是h5檔案的資料集的構成

在pandas中讀寫hdf檔案時,指定的key值指的是hdf檔案中的group,

1 read_hdf(path_or_buf, key=none, mode='r', **kwargs)

當要讀取得h5檔案中,只包含乙個group時,可將key引數省略

2 to_hdf(path_or_buf, key, **kwargs)

當寫入h5檔案時,必須指定寫入的組,即key值不能省略

h5檔案初識

h5檔案中有兩個核心的概念 組 group 和資料集 dataset 乙個h5檔案就是 dataset 和 group 二合一的容器。dataset 簡單來講類似陣列組織形式的資料集合,像 numpy 陣列一樣工作,乙個dataset即乙個numpy.ndarray np.array只是乙個便捷的函...

pacbio 原始下機資料h5 檔案簡介

pacbio 採用hdf5檔案格式儲存原始的下機資料,對於rs 測序系統而言,會產生乙個 bas.h5 的檔案 以bas.h5 檔案為例,看一下有下機資料中儲存了那些資訊 h5dump 工具可以用來檢視h5 檔案的內容 執行下面命令 h5dump n m120729 040044 42134 c10...

生成H5檔案記錄

首先理解h5py這個東西,網上專業說明很多。這裡不贅述,個人理解 h5py是乙個大盒子,下面 是新建這個盒子 target path是h5檔案存放路徑 dataset h5py.file os.path join target path,data.h5 w 有了空盒子以後,我們給它再來進行分割槽。乙...