檔案格式 gff格式

2022-08-24 16:15:09 字數 1153 閱讀 7160

gff檔案格式

gff格式是

sanger

研究所定義,是一種簡單的、方便的對於

dna、

rna以及蛋白質序列的特徵進行描述的一種資料格式,

已經成為序列注釋的通用格式,比如基因組的基因**,許多軟體都支援輸入或者輸出gff格式。

前格式定義的最新版本是版本3。原始定義見

song websitegff是存文字檔案,由

tab鍵隔開的

9列組成,以下是各列的說明:

column 1: 「seqid」

序列的編號,編號的有效字元[a-za-z0-9.:^*$@!+_?-|]

column 2: 「source」

注釋資訊的**,比如」genescan」、

」genbank」

等,可以為空,為空用

」.」點號代替

column 3: 「type」

注釋資訊的型別,比如gene、

cdna

、mrna

等,或者是

so對應的編號

columns 4 & 5: 「start」 and 「end」

開始與結束的位置,注意計數是從1開始的。結束位置不能大於序列的長度

column 6: 「score」

得分,數字,是注釋資訊可能性的說明,可以是序列相似性比對時的e-values值或者基因**是的

p-values

值。」.」

表示為空。

column 7: 「strand」

序列的方向, +表示正義鏈

, -反義鏈

, ?

表示未知

.column 8: 「phase」

僅對注釋型別為 「cds」有效,表示起始編碼的位置,有效值為0、

1、2。

column 9: 「attributes」

以多個鍵值對組成的注釋資訊描述,鍵與值之間用」=「,不同的鍵值用

」;「隔開,乙個鍵可以有多個值,不同值用

」,「分割。注意如果描述中包括

tab鍵以及

」,=;」

,要用url

轉義規則進行轉義,如

tab鍵用

%09代替。鍵是區分大小寫的,以大寫字母開頭的鍵是預先定義好的,在後面可能被其他注釋資訊所呼叫。

gff檔案 gff gtf格式

1 gff3及gtf2簡介 乙個物種的基因組測序完成後,需要對這些資料進行解讀,首先要先找到這些序列中轉錄起始位點 基因 外顯子 內含子等組成元件在染色體中的位置資訊 即注釋 後才能再進行深入的分析。gff gtf是貯存這些注釋資訊的兩種檔案格式。gff general feature format...

Oracle 控制檔案格式ctl檔案格式

options skip 1,errors 10 load data characterset zhs16gbk infile into table table name truncate fields terminated by optionally enclosed by trailing nu...

DOS檔案格式 與 UNIX檔案格式 轉換

這裡闡述兩種方法 1.使用vim的方法 在vim下 使用如下命令 set fileformat unix 就可轉換成 unix 檔案格式,也可使用其縮寫形式命令 set ff unix 直接輸入命令 set fileformat 或 set ff 還可查詢當前的命令格式。2.使用linux命令工具 ...