blast 簡單使用

2021-10-10 05:52:56 字數 3354 閱讀 9115

可以用conda安裝

收集mask資訊

為了遮蔽簡單重複序列的干擾,需要收集mask資訊。

核酸序列

演算法有windomasker和dustmasker兩種。

此處用的是dustmasker.

dustmasker -in genome.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out dust.asnb
-in:輸入檔案

-infmt: 輸入檔案格式

-parse_seqids:按序列id解析,此外用了,下面也要用,保持一致

-outfmt:輸出檔案格式

-out:輸出檔名

蛋白序列

segmasker -in peptide.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out peptide_seg.asnb > seg.log 2>&1 &
建立本地資料庫
makeblastdb -in genome.fasta -input_type fasta -dbtype nucl -parse_seqids -mask_data dust.asnb -out genome

makeblastdb -in peptide.fasta -input_type fasta -dbtype prot -parse_seqids -mask_data peptide_seg.asnb -out peptide

檢視資料庫資訊
blastdbcmd -db blastdatabse -info
megablast 是blastn的乙個功能,相比於經典balstn更快.

缺點是megablast只適合找相似度較高的序列(一般90%以上),可以用於物種內部或分歧不太大的物種間比對。

序列相似性不高的序列可以使用dc-megablast(discontiguous-blast),適於70%以上相似度的序列。

使用index可以讓megablast更快,特別適合1m以下的序列比對,缺點是index檔案比較大,是blast庫的4倍,word size必須至少16以上dc-megablast不支援。

建立megablast專用的index

nohup makembindex -iformat blastdb -input hau1.1_chr &
使用

-use_index true
1. 檢視mask演算法id

之前的masked資訊並不會預設使用,需要手動加入引數-db_soft_mask 演算法id或者`-db_hard_mask 演算法id。

blastdbcmd -db genome -info

database: genome.fasta

2,190 sequences; 2,348,137,562 total bases

date: mar 29, 2019 9:50 pm longest sequence: 124,056,332 bases

algorithm id algorithm name algorithm options

11 dust window=64; level=20; linker=1

volumes:

/genome

可以看到演算法id:11,演算法名字:dust

另外,windowmasker的演算法id可能是:30

2. 使用megablast比對,加入masked資訊和index

blastn -query test.txt -task megablast -db_soft_mask 11 -use_index true -db genome -outfmt 7 -out test.out -num_threads 20
0 = pairwise

比對到結果分別顯示

比對到的結果一起顯示

不省略正確比對鹼基

同格式1相似

4 = flat query-anchored no identities

同格式2相似

5 = blast xml

xml格式

6 = tabular

製表符分隔格式

與格式6相比,加了注釋行

csv格式

11 = blast archive (asn.1),

12 = seqalign (json),

13 = multiple-file blast json,

14 = multiple-file blast xml2,

15 = single-file blast json,

16 = single-file blast xml2,

17 = sequence alignment/map (sam),

18 = organism report

blast 安裝及簡單使用

wget tar zxvf ncbi blast 2.9.0 src.tar.gz cd ncbi blast 2.9.0 src configure make make installblast 的一般用法如下 格式化資料庫 makeblastdb in db.fasta dbtype prot ...

blast的本地簡單執行

一 軟體配置 curl o tar zxvf ncbi blast 2.6.0 x64 linux.tar.gz echo export path path src ncbi blast 2.6.0 bin bashrc source bashrc 二 序列比對 序列比對,顧名思義需要參考序列庫,以...

本地BLAST的使用

psi blast psi blast是由blastpgp命令實現的,它的大部分引數是與blastall一致的,只有少數與迭代檢索相關的選項是特別的 j 最大迭代檢索的次數,預設值1,即等同與在blastall中所使用blastp程式 h 在每輪檢索後構建新的打分矩陣時所選擇的序列的期望值 e va...