生信 1 vcf格式檔案解讀

2021-08-11 16:38:46 字數 4718 閱讀 4907

vcf格式:variant call format,用於記錄variants (snp / indel)的檔案格式,關於其說明,詳見:

vcf是用於描述snp,indel和sv結果的文字檔案。vcf格式在gatk軟體中得到很好的支援。

vcf檔案分為兩部分內容:以「#」開頭的注釋部分和沒有「#」開頭的主體部分。(注釋部分和主題部分);注釋部分有很多對vcf的介紹資訊;主體部分包含10列資料。主題部分每一行代表乙個variant的資訊。

主體部分10列的範例:

chrm 150 . t c 7766.77 pass ac=2;af=1.00;an=2;dp=199;excesshet=3.0103;fs=0.000;mleac=2;mleaf=1.00;mq=49.78;qd=32.91;sor=0.904 gt:ad:dp:gq:pl 1/1:0,175:175:99:7795,531,0

chrom : 參考序列名稱

pos : variant所在的left-most位置(1-base position)(發生變異的位置的第乙個鹼基所在的位置)

id : variant的id。同時對應著dbsnp資料庫中的id,若沒有,則預設使用『.』

ref : 參考序列的allele,(等位鹼基,即參考序列該位置的鹼基型別及鹼基數量)

alt : variant的allele,若有多個,則使用逗號分隔,(變異所支援的鹼基型別及鹼基數量)這裡的鹼基型別和鹼基數量,對於snp來說是單個鹼基型別的編號,而對於indel來說是指鹼基個數的新增或缺失,以及鹼基型別的變化

qual : variants的質量。phred格式的數值,代表著此位點是純合的概率此值越大,則概率越低,代表著次位點是variants的可能性越大。(表示變異鹼基的可能性)

filter : 次位點是否要被過濾掉。如果是pass,則表示此位點可以考慮為variant。

info : variant的相關資訊

format : variants的格式,例如gt:ad:dp:gq:pl

samples : 各個sample的值,由bam檔案中的@rg下的sm標籤所決定,這些值對應著第9列的各個格式,不同格式的值用冒號分開,每乙個sample對應著1列;多個samples則對應著多列,這種情況下列的數多餘10列。

4,vcf檔案的基因型資訊

vcf檔案的主體部分的第9列是基因型資訊的多個標籤,這些標籤之間以冒號分割,其對應的值位於第10列,同樣以冒號分割,表示第乙個樣品的基因型結果。若有多個樣品,則vcf檔案超過10列,且第10列後的每一列表示乙個樣品的基因型結果。第9列各個標籤的意義展示如下:

gt : genotype

樣品的基因型(genotype),兩個數字中間用『/』分開,這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele(可初步理解為和ref的鹼基相同,即和ref相同);1表示樣品中的variant的allele(可以理解為和variant變異後的鹼基相同,即和alt相同);2表示有第二個variant的allele(和alt的第二種鹼基相同對於snp是指單個鹼基型別相同而對於indel是指鹼基型別及個數均相同

因此根據gt的結果得出以下結論:

0/0表示sample中該位點為純合位點,和ref的鹼基型別一致

0/1表示sample中該位點為雜合突變,有ref和alt兩個基因型(部分鹼基和ref鹼基型別一致,部分鹼基和alt鹼基型別一致)

1/1表示sample中該位點為純合突變,總體突變型別和alt鹼基型別一致

1/2表示sample中該位點為雜合突變,有alt1和alt2兩個基因型(部分和alt1鹼基型別一致,部分和alt2鹼基型別一致)

ad和dp

ad(allele depth)為sample中每一種allele(等位鹼基)的reads覆蓋度,在diploid(二倍體,或可指代多倍型)中則是用逗號分隔的兩個值,前者對應ref基因,後者對應alt基因型;

dp(depth)為sample中該位點的覆蓋度,是所支援的兩個ad值(逗號前和逗號後)的加和;例如:

1/1:0,175:175gt:ad(ref),ad(alt):dp

0/1:79,96:175

1/2:0,20,56:76

這裡的三種型別對應的dp值均是其對應的ad值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

gq(基因型存在的概率)

基因型的質量值(genotype quality)。phred格式(phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則genotype的可能性越大;計算方法:phred值=-10*log(1-p),p為基因型存在的概率。(一般在final.snp.vcf檔案中,該值為99,為99時,其可能性最大

pl(likelihood genotypes)

指定的三種基因型的質量值(provieds the likelihoods of the given genotypes);這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。phred值=-10*log(p),p為基因型存在的概率。最有可能的genotype的值為0

例如:

0/1:889,0,216

0/1:94,0,940

1/1:269,18,0

1/1:580,54,0

1/2:3365,1522,1357,1842,0,1706

1/2:307,190,178,117,0,104

0/0型3個數字,第乙個為0

0/1型3個數字,中間為0

1/1型3個數字,最後乙個為0

1/2型6個數字,倒數第二個為0

5,vcf檔案第8列資訊

第8列的資訊包括18種,都是以「tag=value」,並使用分號分隔的形式,其中很多的注釋資訊在vcf檔案的頭部注釋中給出,下面對常用的tag進行解釋:

ac,af和an

ac(allele count)表示基因型為與variant一致的allele(等位鹼基)的數目;af(allele frequency)表示allele的頻率,af值=ac值/an值;an(allele number)表示allele的總數目。比如:對2個sample的雙倍體進行測序,則an值為4。若ref上位點鹼基為a,而2個sample在該位點分別為a/t和t/g,則ac值為2,1;af值為0.50,0.25。ac:variant數目,af:頻率,an:總數目

dp(reads覆蓋度)

表示reads被過濾後的覆蓋度

fs

fisherstrand的縮寫,表示使用fisher』s精確檢驗來檢測strand bias而得到的fhred格式的p值,該值越小越好;如果該值較大,表示strand bias(正負鏈偏移)越嚴重,即所檢測到的variants位點上,reads比對到正負義鏈上的比例不均衡。一般進行filter的時候,推薦保留fs<10~20的variants位點。gatk可設定fs引數。

readposrandsum

z-score from wilcoxon rank sum test of alt vs. ref read position bias.當variants出現在reads尾部的時候,其結果可能不準確。該值用於衡量alternative allele(變異的等位基因)相比於reference allele(參考基因組等位基因),其variant位點是否匹配到reads更靠中部的位置。因此只有基因型是雜合且有乙個allele和參考基因組一致的時候,才能計算該值。若該值為正值,表明和alternative allele相當於reference allele,落來reads更靠中部的位置;若該值是負值,則表示alternative allele相比於reference allele落在reads更靠尾部的位置。

進行filter的之後,推薦保留readposranksum>-1.65~-3.0的variant位點

mqranksum

生信星球學習筆記DAY1 微微

生信星球學習小組第100期今天開課啦,以下是生信小白第一次的學習筆記 有點兒小激動 常用搜尋引擎 谷歌 必應 蟲部落快搜 新接觸 可與學習小組的小夥伴一起討論,共同進步 注意提問的完整性,配上截圖,說明上下文 1 瀏覽器 chrome 2 檔案搜尋 everything 3 截圖 snipaste ...