pacbio 原始下機資料h5 檔案簡介

2021-09-07 11:36:55 字數 2802 閱讀 1996

pacbio 採用hdf5檔案格式儲存原始的下機資料,對於rs 測序系統而言,會產生乙個 bas.h5 的檔案;

以bas.h5 檔案為例,看一下有下機資料中儲存了那些資訊

h5dump 工具可以用來檢視h5 檔案的內容:

執行下面命令:

h5dump -n  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5

可以看到這個檔案中所有的group和dataset, 由於結果太多,只展示最上層的兩個group;

group      /

group /pulsedata

group /scandata

通過這個命令的執行結果,可以發現,這個h5檔案中有兩個大的group : pulsedata 和 scandata

其中scandata 儲存的是和儀器相關的一些裝置資訊,就不詳細看了,重點看下pulsedata group 下的資訊;

group      /pulsedata

group /pulsedata/basecalls

group /pulsedata/consensusbasecalls

在 plusedata group 下面又有兩個subgroup, basecalls 和 consensusbasecalls ;

其中basecalls 存放的是原始的鹼基calling的結果,而consensusbasecalls 存放的是環形一致性序列(ccs)的鹼基calling的結果,

在這兩個group下有乙個相同名稱的資料集 basecall, 存放的就是鹼基序列的資訊

dataset    /pulsedata/basecalls/basecall

dataset /pulsedata/consensusbasecalls/basecall

使用如下命令,檢視該資料集的內容:

h5dump -d /pulsedata/consensusbasecalls/basecall  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > basecall.info

由於檔案內容太多,重定向到乙個檔案中;-d 引數指定你想要檢視的資料集的名稱

通過basecall.info 檔案中的內容可以看到,如下的資訊

data {

(0): 67, 71, 67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67,

(17): 71, 71, 71, 71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84,

(34): 67, 67, 71, 84, 65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67,

(51): 67, 71, 65, 65, 65, 84, 71, 67, 67, 65, 71, 67, 71, 65, 84, 71, 67,

(68): 65, 71, 84, 71, 84, 67, 84, 71, 67, 65, 65, 67, 84, 71, 71, 67, 65,

這裡的data 就是測序得到的鹼基序列,只不過採用了ascii 編碼,a=> 65, c=> 67, g=>71, t=>84;

只有鹼基序列還不夠,我們還需要鹼基質量的資訊,對應的dataset的名稱為 qualityvalue

dataset    /pulsedata/basecalls/qualityvalue

dataset /pulsedata/consensusbasecalls/qualityvalue

同樣的方式檢視鹼基質量的資料:

h5dump -d /pulsedata/consensusbasecalls/qualityvalue  m120729_040044_42134_c100384402550000001523033010171256_s1_p0.bas.h5 > basecall.quality

通過basecall.quality 檔案中的內容可以看到,如下的資訊

data {

(0): 51, 44, 42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51,

(17): 48, 48, 48, 47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30,

(35): 30, 51, 51, 7, 7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26,

(53): 27, 27, 27, 27, 51, 36, 36, 30, 30, 51, 51, 49, 49, 51, 51, 51, 51,

(70): 51, 51, 51, 51, 51, 51, 49, 44, 31, 51, 51, 20, 20, 34, 48, 48, 31,

(87): 30, 34, 36, 23, 23, 51, 26, 26, 49, 50, 45, 45, 50, 44, 41, 43, 50,

(104): 50, 51, 37, 37, 50, 51, 25, 25, 44, 51, 51, 51, 37, 37, 37, 37, 51,

這裡的data就是鹼基質量值,pacbio的鹼基質量值和illumina的鹼基質量值一樣的。

h5檔案初識

h5檔案中有兩個核心的概念 組 group 和資料集 dataset 乙個h5檔案就是 dataset 和 group 二合一的容器。dataset 簡單來講類似陣列組織形式的資料集合,像 numpy 陣列一樣工作,乙個dataset即乙個numpy.ndarray np.array只是乙個便捷的函...

h5檔案簡介

h5檔案是層次格式的第5代版本,用於儲存科學資料的一種檔案格式和庫檔案,由美國超級計算中心與應用中心研發的檔案格式,用以儲存和組織大規模資料.h5將檔案結構簡化成兩個主要的物件型別 1 資料集dataset,就是同一型別資料的多維陣列 2 組group,是一種容器結構,可以包含資料集和其他組,若乙個...

H5資料推送

眾所周知,ajax的出現是前端快速發展的乙個標誌,同時也是前後端得以分離的重要基礎。作為乙個c s網路的web系統,網路通訊在發揮著舉足輕重的作用。大部分的場景下,我們是主動觸發ajax去調取後端資料,但是總有那麼些場景是後端資料更新了再推送給前端。本文則試著和讀者一起對這個資料推送的需求進行技術方...