生物資訊學習 tophat使用手冊

2021-07-27 21:58:45 字數 3549 閱讀 9545

用法

tophat  [options]* [reads1_2,...readsn_2]

tophat允許在

paired reads

之後使用額外的

unpaired reads

,這些unpair reads

既能夠在

paired reads

的末端一側給出,也能夠在單獨的檔案中給出,這些檔案被附加到(逗號隔開)任一側的配對輸入檔案的列表。

例如:tophat [options]* pe_reads_1.fq.gz , se_reads.fa  pe_reads_2.fq.gz

‐ or

‐ tophat [options]* pe_reads_1.fq.gz  pe_reads_2.fq.gz, se_reads.fa

引數:即index中的索引檔名(該檔案先在bowtie中建立索引)。先在當前目錄中查詢索引檔案,然後查詢當前執行bowtie可執行檔案所在目錄下的indexes子目錄,最後查詢在自定義的環境變數bowtie_indexes(或bowtie2_indexes)中指定的目錄。

建議將要建立索引的基因組序列(reference,fasta檔案)與bowtie索引檔案(index)存在於同一目錄中,並且名稱為.fa。 如果不存在,tophat將從bowtie索引檔案中自動重建此fasta檔案。

包含fastq或fasta格式的reads的檔案,多檔案可用逗號隔開。

<[reads1_2,...readsn_2]> 

包含fastq或fasta格式的reads的檔案,多檔案可用逗號隔開。僅當用tophat處理paired-end reads並且含有*_2的檔案時出現,保證檔案1與檔案2的順序相同

options:操作項

-h/--help 

顯示幫組文件的資訊,並退出終端 

-v/--version 

顯示tophat的版本號,並退出終端

-n/--read-mismatches 

丟棄錯誤匹配鹼基數超過該數目的比對結果,預設值為2

--read-gap-length 

丟棄gap總長度超過該數目的比對結果,預設值為2

--read-edit-dist 

丟棄read的edit distance大於該值的比對結果。預設值為2 

--read-realign-edit-dist

一些跨越多個外顯子的reads可能會被錯誤地比對到geneome上。tophat有多個比對步驟,每個比對步驟過後,比對結果中包含了edit distance的值。該引數能讓tophat對那些edit distance的值大於等於該引數的reads重新進行比對。若設定該引數值為0,則每個read在多個比對步驟中每次都要進行比對。這樣會加大地增加比對精確性和執行時間。預設下該引數比上乙個引數的值大,則表示對reads進行重新比對。

--bowtie1 

使用bowtie1來代替bowtie2進行比對。當使用colorspace reads時用到,因為只有bowtie1支援,而bowtie2不支援。預設為bowtie2

-o/--output-dir

輸出的資料夾路徑。預設為"./tophat_out".

-r/--mate-inner-dist

成對的reads之間的平均inner距離。例如:fragments長度300bp,兩端長度50bp, 則其inner距離為200bp,該值該設為200。預設值:50bp

--mate-std-dev

inner距離的標準偏差。預設值:20bp

-a/--min-anchor-length

read的anchor長度:該引數能設定的最小值為3;錨定在junction兩邊的reads長度只有都大於此值,才能用於junction的驗證。預設值:8

-m/--splice-mismatches

對於乙個剪下比對,其在anchor區能出現的最大的不匹配鹼基數。預設值:0

-i/--min-intron-length  

最小的內含子長度。tophat會忽略比該長度要小的donor/acceptor pairs,認為該區屬於外顯子。預設是70.

-i/--max-intron-length

最大的內含子長度。tophat會忽略長度大於該值的donor/acceptor pairs,除非有long read支援。預設值是500000.

--max-insertion-length

最大的插入長度。預設值是3.

--max-deletion-length

最大缺失長度,預設值是3.

--solexa-quals 

對fastq檔案使用solexa的鹼基質量格式

--solexa1.3-quals 

使用illumina ga pipeline version 1.3的鹼基質量格式,即phred64.

-q/--quals 

使用單獨的鹼基質量檔案 

--integer-quals 

有空格隔開的整數值來代表鹼基質量。當使用 -c 引數時,該引數為預設引數。

-c/--color 

colorspace reads, 注意使用乙個 colorspace bowtie 索引而且需要bowtie 0.12.6 及以上.

通常用法: tophat --color --quals [other options]* [reads1_2,...readsn_2] [quals1_2,...qualsn_2]

-p/--num-threads

比對時使用的執行緒數,預設是1.

-g/--max-multihits

對於乙個reads,可能會有多個比對結果,但tophat根據比對給分,最多保留的比對結

果數目。如果沒有--report-secondary-alignments 引數,則只會報告出最佳的比對結果。若最佳比對結果數目超過該引數值,則只隨機報告出該數目的最佳比對結果;若有 --

report-secondary-alignments 引數,則按得分順序報告出比對結果,直至達到預設

的數目為止。

--report-secondary-alignments 

預設情況下,tophat根據比對分數(as)報告最佳或主要比對結果。如果要輸出其他或次要比對結果(這種方法最多報告20個比對,此限制可以通過使用上面的-g / - max-multihits選項更改)請使用此選項。

--no-discordant 

--no-mixed 

--no-coverage-search 

取消以coverage為基礎來搜尋junctions,和下乙個引數互斥,該引數為預設引數。 

--coverage-search 

確定以覆蓋度為基礎來搜尋junctions。以獲得最大靈敏度

--microexon-search 

使用該引數,pipeline會嘗試尋找micro-exons。僅僅在reads長度》=50bp時有效。

--library-type 

tophat處理的reads具有鏈特異性。比對結果中將會有個xs標籤。一般illumina資料的library-type為 fr-unstranded。

生物資訊學軟體 自學生物資訊學

我是生物工程專業出身,在大三保研時選擇了生物資訊的道路,到現在為止已經在行業裡摸爬滾打了6年的時間,在這6年的學習之路上疑惑過,也迷茫過,特此把我學習的過程以及遇到的問題總結出來以讓大家避免出現同樣的問題。在我學習生物資訊過程的基礎上帶著大家順暢的走一遍。在學習生物資訊學之前,我們先來了解一下什麼是...

生物資訊學(Bioinformatics)

生物資訊學 bioinformatics 這個名詞有許多不同的定義。從字面上來看,生物資訊學是將資訊科學應用於生物學。生物資訊學廣義的概念是指應用資訊科學研究生物體系和生物過程中資訊的存貯 資訊的內涵和資訊的傳遞,研究和分析生物體細胞 組織 器官的生理 病理 藥理過程的中各種生物資訊,或者說是生命科...

生物資訊學期刊

biochemistry 3.379 bioinformatics 4.328 bmc bioinformatics 3.78 bmc genomics 3.93 bmc molecular biology 2.81 bmc systems biology 3.71 briefings in bio...