根據bed檔案從fasta檔案中獲取基因序列

2022-09-11 09:33:09 字數 311 閱讀 5847

第一次寫部落格,分享乙個做的提取基因序列的程式,根據bed檔案裡的位置資訊從基因組裡提取序列

bed檔案通常用來儲存注釋基因資訊bed檔案必須的3列:

chrom - 染色體號

chromstart - feature在染色體上起始位置(其實編號為0)

chromend - feature在染色體上末尾位置(不包括此編號)

第四列是基因的名稱

程式依賴 pyfasta模組(

安裝pyfasta的命令:pip install pyfasta

BED檔案格式

bed 檔案格式 bed檔案格式提供了一種靈活的方式來定義的資料行,以用來描述注釋資訊。bed行有3個必須的列和9個額外可選的列。每行的資料格式要求一致。必須包含的3列 1.chrom 染色體名字 e.g.chr3,chry,chr2 random 或scafflold 的名字 e.g.scaffo...

BED 檔案格式

原文 bed檔案格式 bed檔案格式提供了一種靈活的方式來定義的資料行,以用來描述注釋資訊,用於展示序列注釋資訊。bed行有 3個必須的列 和9個額外可選的列 以tab隔開。每行的資料格式要求一致。必須包含的3列 1.chrom 染色體名字 e.g.chr3,chry,chr2 random 或sc...

多行fasta檔案分解成單個檔案

在使用kmer進行統計時,需要分別統計每條序列的kmer數目。如果所有樣本的fasta檔案均在乙個多行fasta檔案裡,如果把每一條序列提取出來?有兩種方法,第一種方法先把序列id提取出來,然後採用grp for迴圈的方法 獲得序列的id grep multiline.fa sed s fas.id...