gff檔案 Py005 gff檔案處理1

2021-10-13 12:07:09 字數 748 閱讀 8087

根據第3列的type,提取mrna及相應exon的資訊

思路:​ 每次讀取一行,提取到mrna特徵值後,寫出該行;

​ 判斷下一行是否具有mrna或exon特徵值,如果有的話,遞迴自動判斷下下一行

import re

import sys

sys.setrecursionlimit(1000000) # 設定最高遞迴次數

def autonext(file, out):

content = next(file)

if re.search("\tmrna\t", content) or re.search(r"\texon\t", content):

out.write(content)

return autonext(file, out)

with open("genome.gff", "r") as gff:

outgff = open("mrna.tmp.gff", "w")

try:

while gff:

line = next(gff)

if re.search(r"\tmrna\t", line):

outgff.write(line)

autonext(gff, outgff)

outgff.flush() # 及時清理快取

except stopiteration: # 防止最後next完最後一行後報錯

pass

outgff.close()

gff檔案 gff gtf格式

1 gff3及gtf2簡介 乙個物種的基因組測序完成後,需要對這些資料進行解讀,首先要先找到這些序列中轉錄起始位點 基因 外顯子 內含子等組成元件在染色體中的位置資訊 即注釋 後才能再進行深入的分析。gff gtf是貯存這些注釋資訊的兩種檔案格式。gff general feature format...

檔案格式 gff格式

gff檔案格式 gff格式是 sanger 研究所定義,是一種簡單的 方便的對於 dna rna以及蛋白質序列的特徵進行描述的一種資料格式,已經成為序列注釋的通用格式,比如基因組的基因 許多軟體都支援輸入或者輸出gff格式。前格式定義的最新版本是版本3。原始定義見 song websitegff是存...

gff檔案用什麼開啟 GFF3格式檔案

gff3是gff注釋檔案的新標準。檔案中每一行為基因組的乙個屬性,分為9列,以tab分開。依次是 1.reference sequence 參照序列 指出注釋的物件。如乙個染色體,轉殖或片段。可以有多個參照序列。該id的取名不能以 開頭,不能包含空格。2.source 注釋的 如果未知,則用點 代替...