BEDTools使用詳細說明

2021-07-28 21:13:34 字數 3149 閱讀 3920

1、概述

bedtools是可用於genomic features的比較,相關操作及進行注釋的工具。而genomic features通常使用browser extensible data (bed) 或者 general feature format (gff)檔案表示,用ucsc genome browser進行視覺化比較。該工具的主要功能如下圖

.2、與bedtools使用相關的基本概念

已有的一些genome features資訊一般由bed格式或者gff格式進行儲存。

3、bed和gff檔案的乙個差異

bed檔案中起始座標為0,結束座標至少是1,; gff中起始座標是1而結束座標至少是1。

1curltar.gz > bedtools.tar.gz

2tar-zxvf bedtools.tar.gz

3cdbedtools

4makeclean

5makeall

6lsbin

7cp/bin/* usr/local/bin/

1、從兩個bed檔案中得到genome feature的交集

intersectbed -a reads.bed -b genes.bed
2、從兩個bed檔案中得到只在第乙個檔案中有而不在第二個檔案中的genome features

intersectbed -a reads.bed -b genes.bed -v
1) bed format

bedtools主要使用bed格式的前三列,bed可以最多有12列。bed格式的常用列描述如下:

2) bedpe format

可以用於描述不連續的genome features, 例如structural variations或者paired-end sequence alignments。和bed檔案格式相比,就是乙個記錄中要有兩個chrom, start,end

3) gff format

類似於bed

4) genome files

bedtools中的一些工具(genomecoveragebed, complementbed, slopbed)需要物種的染色體大小的資訊,genome file一般就是每行都是tab隔開,兩列,一列為染色體的名字,第二列為這個染色體的大小。一般常用物種的genome file在bedtools安裝目錄的/genome裡面。

5) sam/bam format

bedtools的兩個工具:intersectbed, pairtobed支援bam格式的輸入和輸出。有兩個工具有助於:

1、intersectbed

用來求兩個bed或者bam檔案中的overlap,overlap可以進行自定義是整個genome features的overlap還是區域性。

預設的結果描述如下圖

加-wa引數可以報告出原始的在a檔案中的feature, 如下圖

加-wb引數可以報告出原始的在b檔案中的feature, 加-c引數可以報告出兩個檔案中的overlap的feature的數量, 引數-s可以得到忽略strand的overlap。

示例:

intersectbed -a a.bed -b b.bed

intersectbed -a a.bed -b b.bed -wa

intersectbed -a a.bed -b b.bed -wb

intersectbed -a a.bed -b b.bed -wa -wb

intersectbed -a a.bed -b b.bed -c

intersectbed -a a.bed -b b.bed -f 0.50 -r -wa -wb

2、pairtobed

將bedpe或者paired-end的bam檔案與bed檔案進行比較,搜尋overlaps。預設結果如下圖

比較bedpe檔案搜尋overlaps, 類似於pairtobed。

將bam檔案轉換為bed檔案或者bedpe檔案。bamtobed -i reads.bam

類似於intersectbed, 但是可以指定乙個數字,讓a中的genome feature增加上下游去和b中的genome features進行overlap。預設情況這個值為1000,可以使用-w加定義,可以用-l指定是上游,用-r指定下游windowbed -a a.bed -b b.bed -w 5000

windowbed -a a.bed -b b.bed -l 200 -r 20000

在a中去除掉b中有的genome features

加-s引數表明根據正負鏈計算

genomecoveragebed

genomecoveragebed  computes  a  histogram  of  feature  coverage  (e.g.,  aligned  sequences)  for a  given genome. optionally, by  using  the –d option, it will report the  depth of  coverage  at  each  base on  each chromosome in the genome file (-g ).

軟體相關**:

quinlan, a.r. & hall, i.m. bedtools: a flexible suite of utilities for comparing genomic features. bioinformatics 26, 841-842 (2010).

xhttpcache 使用詳細說明

xhttpcache是什麼?xhttpcache 是乙個http高速資料快取服務,也可以做為k v儲存的nosql資料庫 支援redis協議介面,支援http協議的rest介面 xhttpcache有哪些功能?提供http資料快取服務,支援儲存二進位制資料 完整的k v儲存實現,支援資料持久化儲存 ...

Linux Crontab 安裝使用詳細說明

crontab命令常見於unix和linux的作業系統之中,用於設定週期性被執行的指令。該命令從標準輸入裝置讀取指令,並將其存放於 crontab 檔案中,以供之後讀取和執行。通常,crontab儲存的指令被守護程序啟用。crond 常常在後台執行,每一分鐘檢查是否有預定的作業需要執行。這類作業一般...

Linux Crontab 安裝使用詳細說明

crontab命令常見於unix和linux的作業系統之中,用於設定週期性被執行的指令。該命令從標準輸入裝置讀取指令,並將其存放於 crontab 檔案中,以供之後讀取和執行。通常,crontab儲存的指令被守護程序啟用。crond 常常在後台執行,每一分鐘檢查是否有預定的作業需要執行。這類作業一般...