比對軟體hisat2的使用

2021-08-20 10:53:19 字數 1728 閱讀 9158

官方手冊:

基因組比對軟體常用bwa,轉錄組比對軟體常用bowtie2、hisat2等,其中有參考基因組的常用hisat2,沒有參考基因組的常用bowtie2。下面我們來介紹一下hisat2的使用方法~

一、建立索引

建立基因組索引

hisat2-build –p 4 genome.fa genome

建立基因組+轉錄組+snp索引:

bowtie2的索引只有基因組序列資訊,tophat2比對時,轉錄組資訊通過-g引數指定。hisat2建立索引時,就應該把轉錄組資訊加進去。

hisat2提供兩個python指令碼將gtf檔案轉換成hisat2-build能使用的檔案:

extract_exons.py homo_sapiens.grch38.83.chr.gtf>genome.exon

extract_splice_sites.py homo_sapiens.grch38.83.chr.gtf>genome.ss

此外,hisat2還支援將snp資訊加入到索引中,這樣比對的時候就可以考慮snp的情況。這仍然需要將snp檔案轉換成hisat2-build能使用的檔案:

extract_snps.py snp142common.txt>genome.snp

最後,將基因組、轉錄組、snp建立索引:

hisat2-build -p

4 genome.fa --snp genome.snp --ss genome.ss --exon genome.exon genome_snp_tran

執行hisat2

hisat2 -p

16-x ./grch38_tran/genome_tran -1 srr534293_1.fastq -2 srr534293_2.fastq –s srr534293.sam

-p 執行緒數

-x 指定基因組索引

-1 指定第乙個fastq檔案

-2 指定第二個fastq檔案

-s 指定輸出的sam檔案

官方操作手冊簡要版

用法:hisat2 [options]* -x [-s ]

輸入選項:

-q輸入檔案為fastq格式。fastq格式為預設引數。

-qseq

輸入檔案為qseq格式。

-f輸入檔案為fasta格式。

-r輸入檔案中,每一行代表一條序列,沒有序列名和測序質量等。選擇此項時,–ignore-quals引數也會被選擇。

-c此引數後是直接比對的序列,而不是包含序列的檔名。序列間用逗號隔開。選擇此項時,–ignore-quals引數也會被選擇。

-s/–skip

跳過輸入檔案中前條序列進行比對。

-u/–qupto

只使用輸入檔案中前條序列進行比對,預設是沒有限制。

-5/–trim5

比對前去除每條序列5』端個鹼基

-3/–trim3

比對前去除每條序列3』端個鹼基

–phred33

輸入的fastq檔案鹼基質量值編碼標準為phred33,phred33為預設引數。

–phred64

輸入的fastq檔案鹼基質量值編碼標準為phred64。

–solexa-quals

將solexa的鹼基質量值編碼標準轉換為phred。

–int-quals

hisat2比對 生信筆記 轉錄組分析HISAT2

hisat2是一款快速 敏感的序列比對軟體。使用改進的bwt演算法,相比bowtie tophat2具有更高的敏感性和更快的運算速度。安裝hisat2 我採用conda安裝,也是最簡單的方法 conda install c bioconda hisat2 conda install c biocon...

DIAMOND 超快的蛋白序列比對軟體

相見恨晚,還好遇到了它 今天用blastx將我的轉錄本序列在uniprot蛋白資料庫 700w條序列 中搜尋,80個執行緒,過了1小時大概就分析1000條吧。實在是有點慢,於是我想到之前耳聞的diamond,據說速度非常快,於是我測試了下。沒想到,這工具居然那麼快。根據diamond介紹,它有以下特...

shiro認證2 md5密碼的比對(六)

1.為什麼使用 md5 鹽值加密 2.如何做到 1 在 dogetauthenticationinfo 方法返回值建立 authenticationinfo 物件的時候,需要使用 authenticationinfo principal,credentials,credentialssalt,rea...