gff檔案 gff gtf格式

2021-10-12 13:23:01 字數 2372 閱讀 7612

1)gff3及gtf2簡介

乙個物種的基因組測序完成後,需要對這些資料進行解讀,首先要先找到這些序列中轉錄起始位點、基因、外顯子、內含子等組成元件在染色體中的位置資訊(即注釋)後才能再進行深入的分析。gff/gtf是貯存這些注釋資訊的兩種檔案格式。

gff(general feature format):這種格式主要是用來注釋基因組。 現大部分利用的是第三版,即gff3。

gtf(gene transfer format):主要是用來對基因進行注釋。當前所廣泛使用的gtf格式為第二版,即gtf2 。

1.1)gff3

gff3允許使用#作為注釋符號 ,除去注釋外,主體部分共有9列。gff3中每一列的含義:seqid source type start end score strand strand attributes

1) seqid :序列的id。(the name of the sequence where the feature is located.)

3)type: 型別,此處不受約束,但為下游分析方便,建議使用gene,repeat_region,exon,cds,或so對應編號等。

4)start:起始位置,從1開始計數(區別於bed檔案從0開始計數)。

5)end:終止位置。

6)score:得分,注釋資訊可能性說明,可以是序列相似性比對時的e-values值或者基因**是的p-values值。」.」表示為空。(indicates the confidence of the source on the annotated feature)

7)strand:「+」表示正鏈,「-」表示負鏈,「.」表示不需要指定正負鏈,「?」 表示未知.

9)attributes:屬性。乙個包含眾多屬性的列表,格式為「標籤=值」(tag=value),不同屬性之間以分號相隔。

1.2)gtf2

gtf檔案也是由9列組成,其中每一列含義:seqname source feature start end score strand frame attributes

1) seqname: 序列的名字。通常格式染色體id或是contig id。

3) start:起始位置,從1開始計數。

4) end:終止位置。

5) feature :基因結構.根據所使用軟體不同,feature types必須註明。cds,start_codon,stop_codon是一定要含有的型別。

6) score :這一列的值表示對該型別存在性和其座標的可信度,不是必須的,可以用點「.」代替。

7) strand:鏈的正向與負向,分別用加號+和減號-表示。

8) frame:密碼子偏移,可以是0、1或2。

9) attributes:必須要有以下兩個值:

gene_id value: 表示轉錄本在基因組上的基因座的唯一的id。gene_id與value值用空格分開,如果值為空,則表示沒有對應的基因。

transcript_id value: **的轉錄本的唯一id。transcript_id與value值用空格分開,空表示沒有轉錄本。

2)gff3和gtf2之間的異同及相互轉換。

gff3和gtf2之間的轉換可以用cufflinks裡面的工具"gffread":

gffread my.gff3 -t -o my.gtf             #gff2gtf

gffread merged.gtf -o- > merged.gff3     #gtf2gff

3) 習題

3.1)gff3格式的功能是是什麼?目前有幾版?

3.2)gff3共有多少列?每一列的含義是什麼?

3.3)gff3中的第8列代表的0,1,2分別代表什麼含義?

3.4)gff3第9列不同屬性之間是用什麼符號分割的?

3.5)gtf2和gff3格式上有何異同?

3.6)gtf2和gff3在功能上有什麼差異?

3.7)gtf2第9列中不同屬性用什麼符號分割?

3.8)如何將gtf和gff之間相互轉換?

3.9)統計test.gff檔案中組裝出來的染色體條數

3.10)統計test.gff檔案中lnc_rna個數

3.11)統計基因組檔案test.gff中有多少個基因

3.12)求最長基因的長度

3.13)查詢乙個基因下有3個轉錄本的基因個數

3.14)求相位為2的cds個數

3.15)找出基因含有最多的外顯子的個數

3.16)  將test.gff轉化為test.gtf

3.17)統計test.gtf中transcript的個數

3.18)根據test.gtf統計位於正鏈上的exon的個數

3.19)將test.gtf中所有的gene id都統計出來

3.20) 找出test.gtf中位於正鏈上的最長的基因

4) 參考資源

檔案格式 gff格式

gff檔案格式 gff格式是 sanger 研究所定義,是一種簡單的 方便的對於 dna rna以及蛋白質序列的特徵進行描述的一種資料格式,已經成為序列注釋的通用格式,比如基因組的基因 許多軟體都支援輸入或者輸出gff格式。前格式定義的最新版本是版本3。原始定義見 song websitegff是存...

gff檔案用什麼開啟 GFF3格式檔案

gff3是gff注釋檔案的新標準。檔案中每一行為基因組的乙個屬性,分為9列,以tab分開。依次是 1.reference sequence 參照序列 指出注釋的物件。如乙個染色體,轉殖或片段。可以有多個參照序列。該id的取名不能以 開頭,不能包含空格。2.source 注釋的 如果未知,則用點 代替...

gff檔案 Py005 gff檔案處理1

根據第3列的type,提取mrna及相應exon的資訊 思路 每次讀取一行,提取到mrna特徵值後,寫出該行 判斷下一行是否具有mrna或exon特徵值,如果有的話,遞迴自動判斷下下一行 import re import sys sys.setrecursionlimit 1000000 設定最高遞...