bam檔案格式說明

2022-06-23 21:27:11 字數 1487 閱讀 9316

`1. 序列是一對序列中的乙個`

`2. 比對結果是乙個pair-end比對的末端`

`4. 沒有找到位點`

`8. 這個序列是pair中的乙個但是沒有找到位點`

`16. 在這個比對上的位點,序列與參考序列反向互補`

`32. 這個序列在pair-end中的的mate序列與參考序列反響互補`

`64. 序列是 mate 1`

`128. 序列是 mate 2`

假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和,可以使用二進位制數來表示

3參考序列的名字

4在參考序列上的位置

5q值的計算方法來自與sam標準格式,請檢視sam總結。

6代表比對結果的cigar字串,如37m1d2m1i,這段字元的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。m代表的是alignment match(可以是錯配),可以理解為表示比對的具體情況

7mate 序列所在參考序列的名稱,mate一般指大的片段序列

8mate 序列在參考序列上的位置

9估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。

10read的序列

11read序列對應的ascii碼格式的鹼基質量值

12可選的區域 header section

其中header section用不同的tag表示不同的資訊,主要有@hd,說明符合標準的版本、對比序列的排列順序@sq,參考序列說明@rg,比對上的序列(read)說明@pg,使用的程式說明@co,任意的說明資訊。tag以鍵值對的形式存在。

as:i 匹配的得分

xs:i 第二好的匹配的得分

ys:i mate 序列匹配的得分

xn:i 在參考序列上模糊鹼基的個數

xm:i 錯配的個數

xo:i gap open的個數

xg:i gap 延伸的個數

nm:i 經過編輯的序列

yf:i 說明為什麼這個序列被過濾的字串

yt:z

md:z? 代表序列和參考序列錯配的字串

csv檔案格式說明

csv檔案應用很廣泛,歷史也很悠久。有很多種型別的csv格式,常用的是rfc 4180定義的格式。csv檔案包含一行或多行記錄,每行記錄中包含乙個或多個字段。記錄與記錄之間使用換行符分隔,最後乙個記錄可以沒有換行符。field1,field2,field3空白不會分隔字段。例如下面有3個字段,第乙個...

bam獲取序列 bam sam格式說明

幫朋友處理sam各式檔案,又記不住sam各式每列代表的什麼內容,乾脆轉個帖子留著以後查詢。在sam輸出的結果中每一行都包括十二項通過tab分隔,從左到右分別是 1 序列的名字 2 概括出乙個合適的標記,各個數字分別代表 1?序列是一對序列中的乙個 2?比對結果是乙個pair end比對的末端 4?沒...

bam檔案讀取 bam格式檔案處理大全 一)

sam檔案是短序列比對生成的檔案,是二代測序中最核心的檔案。在rnaseq,變異檢測等分析中,都需要首先生成sam檔案格式。bam檔案是sam格式的二進位制格式,轉換為二進位制之後,可以減小檔案的儲存。掌握sam bam檔案的操作是處理二代測序資料的非常重要的內容,例如sam與bam的轉換,排序,建...