使用 gffread 提取基因組序列資訊

2022-09-10 17:03:22 字數 890 閱讀 4054

需求:提取 1 號染色體的 21856782-21856982 和 43942666-43942866 區間的 fa 序列;

需要準備的test.gff3檔案如下所示,第一列是染色體號,第二列和第三列的內容隨意,第四列和第五列是提取的開始位置和終止位置,第六列和第八列內容隨意,第七列是基因組的正負鏈,第九列序列的資訊,第九列必須有parent=,;id=,;gene_id=資訊,不然序列提取不出來。分隔符為tab:

chr1    gene     transcript      21856782  21856982  .       +       .       parent=enst0000001234.1;id=enst0000001234.1;gene_id=enst0000001234.1

chr1 gene transcript 43942666 43942866 . + . parent=enst00000567890.1;id=enst00000567890.1;gene_id=enst00000567890.1

另外還需要基因組檔案grch38.primary_assembly.genome.fa, 如下所示:

準備好以上兩個檔案後,用命令gffread -w test.fa -g grch38.primary_assembly.genome.fa test.gff3即可獲取需要的序列。序列儲存在test.fa檔案中。

線粒體和葉綠體的基因組特點 基因和基因組

基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...

人基因組(一)

人類基因組包含22條染色體和1條x或者y染色體,這些染色體長度為45 279mb,加起來共為3286mb。基於染色體的結構,全部基因可被分為常染色質 euchromatin 區域 通常包含活性基因 和異質染色質 heterochromatin 區域,後者攜帶低密度的活性基因。常染色質組成了基因組的主...

使用purge haplogs處理基因組雜合區域

falcon和canu的組裝後會得到乙個單倍型融合的基因組,用來表示二倍體基因組。之後,falcon unzip和supernova這類軟體進一步處理其中等位基因區域,將這部分區間進行拆分。當基因組某些區域可能有著比較高的雜合度,這會導致基因組該區域的兩個單倍型被分別組裝成primary conti...