bam獲取序列 bam sam格式說明

2021-10-13 01:58:14 字數 1026 閱讀 9481

幫朋友處理sam各式檔案,又記不住sam各式每列代表的什麼內容,乾脆轉個帖子留著以後查詢。

在sam輸出的結果中每一行都包括十二項通過tab分隔,從左到右分別是:

1 序列的名字

2 概括出乙個合適的標記,各個數字分別代表

1? 序列是一對序列中的乙個

2? 比對結果是乙個pair-end比對的末端

4? 沒有找到位點

8? 這個序列是pair中的乙個但是沒有找到位點

16? 在這個比對上的位點,序列與參考序列反向互補

32? 這個序列在pair-end中的的mate序列與參考序列反響互補

64 序列是 mate 1

128 序列是 mate 2

假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和。

3? 參考序列的名字

4 在參考序列上的位置

q值的計算方法來自與sam標準格式,請檢視sam總結。

6 代表比對結果的cigar字串,如37m1d2m1i,這段字元的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。m代表的是alignment match(可以是錯配)

7? mate 序列所在參考序列的名稱

8 mate 序列在參考序列上的位置

9? 估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。

10 read的序列

11 ascii碼格式的序列質量

12 可選的區域

as:i? 匹配的得分

xs:i? 第二好的匹配的得分

ys:i? mate 序列匹配的得分

xn:i? 在參考序列上模糊鹼基的個數

xm:i? 錯配的個數

xo:i? gap open的個數

xg:i? gap 延伸的個數

nm:i? 經過編輯的序列

yf:i? 說明為什麼這個序列被過濾的字串

yt:z

md:z? 代表序列和參考序列錯配的字串

bam檔案格式說明

1.序列是一對序列中的乙個 2.比對結果是乙個pair end比對的末端 4.沒有找到位點 8.這個序列是pair中的乙個但是沒有找到位點 16.在這個比對上的位點,序列與參考序列反向互補 32.這個序列在pair end中的的mate序列與參考序列反響互補 64.序列是 mate 1 128.序列...

bam檔案讀取 bam格式檔案處理大全 一)

sam檔案是短序列比對生成的檔案,是二代測序中最核心的檔案。在rnaseq,變異檢測等分析中,都需要首先生成sam檔案格式。bam檔案是sam格式的二進位制格式,轉換為二進位制之後,可以減小檔案的儲存。掌握sam bam檔案的操作是處理二代測序資料的非常重要的內容,例如sam與bam的轉換,排序,建...

Mysql獲取序列值

select identity string sql select identity identity是表示的是最近一次向具有identity屬性 即自增列 的表插入資料時對應的自增列的值,是系統定義的全域性變數。一般系統定義的全域性變數都是以 開頭,使用者自定義變數以 開頭。比如有個表a,它的自增...