生信 1 vcf格式檔案解讀

vcf格式：variant call format，用於記錄variants (snp / indel)的檔案格式，關於其說明，詳見：

vcf是用於描述snp，indel和sv結果的文字檔案。vcf格式在gatk軟體中得到很好的支援。

vcf檔案分為兩部分內容：以「#」開頭的注釋部分和沒有「#」開頭的主體部分。（注釋部分和主題部分）；注釋部分有很多對vcf的介紹資訊；主體部分包含10列資料。主題部分每一行代表乙個variant的資訊。

主體部分10列的範例：

chrm 150 . t c 7766.77 pass ac=2;af=1.00;an=2;dp=199;excesshet=3.0103;fs=0.000;mleac=2;mleaf=1.00;mq=49.78;qd=32.91;sor=0.904 gt:ad:dp:gq:pl 1/1:0,175:175:99:7795,531,0

chrom ：參考序列名稱

pos ： variant所在的left-most位置(1-base position)（發生變異的位置的第乙個鹼基所在的位置）

id ： variant的id。同時對應著dbsnp資料庫中的id，若沒有，則預設使用『.』

ref ：參考序列的allele，（等位鹼基，即參考序列該位置的鹼基型別及鹼基數量）

alt ： variant的allele，若有多個，則使用逗號分隔，（變異所支援的鹼基型別及鹼基數量）這裡的鹼基型別和鹼基數量，對於snp來說是單個鹼基型別的編號，而對於indel來說是指鹼基個數的新增或缺失，以及鹼基型別的變化

qual ： variants的質量。phred格式的數值，代表著此位點是純合的概率，此值越大，則概率越低，代表著次位點是variants的可能性越大。（表示變異鹼基的可能性）

filter ：次位點是否要被過濾掉。如果是pass，則表示此位點可以考慮為variant。

info ： variant的相關資訊

format ： variants的格式，例如gt:ad:dp:gq:pl

samples ：各個sample的值，由bam檔案中的@rg下的sm標籤所決定，這些值對應著第9列的各個格式，不同格式的值用冒號分開，每乙個sample對應著1列；多個samples則對應著多列，這種情況下列的數多餘10列。

4，vcf檔案的基因型資訊

vcf檔案的主體部分的第9列是基因型資訊的多個標籤，這些標籤之間以冒號分割，其對應的值位於第10列，同樣以冒號分割，表示第乙個樣品的基因型結果。若有多個樣品，則vcf檔案超過10列，且第10列後的每一列表示乙個樣品的基因型結果。第9列各個標籤的意義展示如下：

gt ： genotype

樣品的基因型（genotype），兩個數字中間用『/』分開，這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele（可初步理解為和ref的鹼基相同，即和ref相同）；1表示樣品中的variant的allele（可以理解為和variant變異後的鹼基相同，即和alt相同）；2表示有第二個variant的allele（和alt的第二種鹼基相同）對於snp是指單個鹼基型別相同而對於indel是指鹼基型別及個數均相同

因此根據gt的結果得出以下結論：

0/0表示sample中該位點為純合位點，和ref的鹼基型別一致

0/1表示sample中該位點為雜合突變，有ref和alt兩個基因型（部分鹼基和ref鹼基型別一致，部分鹼基和alt鹼基型別一致）

1/1表示sample中該位點為純合突變，總體突變型別和alt鹼基型別一致

1/2表示sample中該位點為雜合突變，有alt1和alt2兩個基因型（部分和alt1鹼基型別一致，部分和alt2鹼基型別一致）

ad和dp

ad(allele depth)為sample中每一種allele（等位鹼基）的reads覆蓋度，在diploid（二倍體，或可指代多倍型）中則是用逗號分隔的兩個值，前者對應ref基因，後者對應alt基因型；

dp(depth)為sample中該位點的覆蓋度，是所支援的兩個ad值（逗號前和逗號後）的加和；例如：

1/1:0,175:175—gt:ad(ref),ad(alt):dp

0/1:79,96:175

1/2:0,20,56:76

這裡的三種型別對應的dp值均是其對應的ad值的加和，1/1的175是0+175，0/1的175是79+96，1/2的76是0+20+56

gq（基因型存在的概率）

基因型的質量值（genotype quality）。phred格式（phred_scaled）的質量值，表示在該位點該基因型存在的可能性；該值越高，則genotype的可能性越大；計算方法：phred值=-10*log(1-p)，p為基因型存在的概率。（一般在final.snp.vcf檔案中，該值為99，為99時，其可能性最大）

pl（likelihood genotypes）

指定的三種基因型的質量值（provieds the likelihoods of the given genotypes）；這三種指定的基因型為（0/0，0/1，1/1），這三種基因型的概率總和為1。該值越大，表明為該種基因型的可能性越小。phred值=-10*log(p)，p為基因型存在的概率。最有可能的genotype的值為0。

例如：

0/1:889,0,216

0/1:94,0,940

1/1:269,18,0

1/1:580,54,0

1/2:3365,1522,1357,1842,0,1706

1/2:307,190,178,117,0,104

（0/0型3個數字，第乙個為0

0/1型3個數字，中間為0

1/1型3個數字，最後乙個為0

1/2型6個數字，倒數第二個為0）

5，vcf檔案第8列資訊

第8列的資訊包括18種，都是以「tag=value」，並使用分號分隔的形式，其中很多的注釋資訊在vcf檔案的頭部注釋中給出，下面對常用的tag進行解釋：

ac，af和an

ac（allele count）表示基因型為與variant一致的allele（等位鹼基）的數目；af（allele frequency）表示allele的頻率，af值=ac值/an值；an（allele number）表示allele的總數目。比如：對2個sample的雙倍體進行測序，則an值為4。若ref上位點鹼基為a，而2個sample在該位點分別為a/t和t/g，則ac值為2，1；af值為0.50，0.25。ac：variant數目，af：頻率，an：總數目

dp（reads覆蓋度）

表示reads被過濾後的覆蓋度

fisherstrand的縮寫，表示使用fisher』s精確檢驗來檢測strand bias而得到的fhred格式的p值，該值越小越好；如果該值較大，表示strand bias（正負鏈偏移）越嚴重，即所檢測到的variants位點上，reads比對到正負義鏈上的比例不均衡。一般進行filter的時候，推薦保留fs<10~20的variants位點。gatk可設定fs引數。

readposrandsum

z-score from wilcoxon rank sum test of alt vs. ref read position bias.當variants出現在reads尾部的時候，其結果可能不準確。該值用於衡量alternative allele（變異的等位基因）相比於reference allele（參考基因組等位基因），其variant位點是否匹配到reads更靠中部的位置。因此只有基因型是雜合且有乙個allele和參考基因組一致的時候，才能計算該值。若該值為正值，表明和alternative allele相當於reference allele，落來reads更靠中部的位置；若該值是負值，則表示alternative allele相比於reference allele落在reads更靠尾部的位置。

進行filter的之後，推薦保留readposranksum>-1.65~-3.0的variant位點

mqranksum

生信星球學習筆記DAY1 微微

生信星球學習小組第100期今天開課啦，以下是生信小白第一次的學習筆記有點兒小激動常用搜尋引擎谷歌必應蟲部落快搜新接觸可與學習小組的小夥伴一起討論，共同進步注意提問的完整性，配上截圖，說明上下文 1 瀏覽器 chrome 2 檔案搜尋 everything 3 截圖 snipaste ...

生信 1 vcf格式檔案解讀

生信星球學習筆記DAY1 微微

相關推薦