基因組資料注釋常用的檔案 Bed檔案和GFF檔案

2021-08-15 09:25:39 字數 1327 閱讀 7862

原文:

genomic features通常使用browser extensible data (bed) 或者 general feature format (gff)檔案表示,用ucsc genome browser進行視覺化比較。

bed檔案和gff檔案最基本的資訊就是染色體或contig的id或編號,然後就是dna的正負鏈資訊,接著就是在染色體上的起始和終止位置數值。    

兩種檔案的區別在於,

bed檔案中起始座標為0,結束座標至少是1,; gff中起始座標是1而結束座標至少是1。

處理bed格式和gff格式的工具主要有 bedtools和tophat 等等

bedtools主要使用bed格式的前三列,bed可以最多有12列。bed格式的常用列描述如下:

這些列的資料,也可以用在circos上,進行基因組資訊視覺化。

求兩個bed檔案中描述的基因組區段的重疊區域

intersectbed可以

用來求兩個bed或者bam檔案中的overlap,overlap可以進行自定義是整個genome features的overlap還是區域性。

bamtobed可以

用來把比對產生的bam檔案轉化為bed檔案,可以配合coveragebed命令使用。

參考 

在bedtools 2.8版本中,

five bedtools - 

intersect

,coverage

,genomecob

,bamtobed

, and

bed12tobed6

常用來處理bed檔案

在bedtools 2.16版本中,用的是

intersectbed,bamtobed,以及coveragebed,genomecoveragebed命令

在bedtools 2.26版本中,又用會原來的簡短的命令了,比如intersect,coverage,genomecov等等,不過還是保留了genomecoveragebed 的用法

參考:用coverage或coveragebed 計算覆蓋度的時候,要提供兩個bed檔案。

參考:用genomecov或genomecoveragebed的時候,要提供乙個bam和乙個基因組染色體或contigid 以及長度的資訊

也可以用samtools pileup 或 samtools depth 獲得測序深度

參考:另外還有乙個軟體 qualimap可以做這些事

參考文獻:

comparison of custom capture for targeted next-generation dna sequencing

線粒體和葉綠體的基因組特點 基因和基因組

基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...

StringTie在注釋基因組時的注意事項

在利用rna seq注釋基因組時,有乙個問題就是,我將不同組織 的轉錄組資料和參考基因組比對之後,那下一步是1 先將這三個比對結果進行合併,然後用stringtie進行 還是2 用stringtie分別進行 然後用stringtie的merge模式進行合併?這個問題的提出,是我採取第二種方式時,發現...

植物基因組資料庫

文獻快遞,讓你第一時間了解本領域的研究進展,只需閱訂相關的期刊,輸入key words即可查詢 亞細胞定位 第乙個 很準,使用最新版本 研究mirna的資料庫 mirbase targetscan microrna.org starbase v2.0 pita pictar rnahybrid mi...