Linux系統中使用NCBI BLAST

2021-10-11 05:11:19 字數 3037 閱讀 8740

實操|linux系統中使用ncbi blast+​mp.weixin.qq.com

全基因組基因家族成員鑑定與分析中,第一步就需要通過資料庫檢索進而鑑定成員,基於此方可進行諸如構建進化樹、保守domain和motif分析、基因結構分析等一系列生物資訊學**分析以及轉錄組或螢光定量表達分析;微生物測序資料分析中,也常常需要對未知的核酸或蛋白質序列與標準資料庫進行相似性檢索,從而進行物種注釋;以上這兩個過程均屬於序列同源性比對的應用。序列比對應該是評估序列相似性的最簡單方法,而序列間的相似度越高,它們是同源序列的可能性就越高。在序列比對檢測中,優先使用的分析工具無疑是blast(basic local alignment search tool),自2023年走上舞台以來,因其從各大資料庫獲取資訊的能力迅速走紅,根據序列大小可以進行web blast,也可在伺服器進行較大資料的比對。

這個教程本文面向初學者(最好還是懂得基本的linux使用,linux中blast效率更高),其目標是在了解應用blast分析的同時,引導大家完成命令列的演示。下面的所有命令都可以ctrl+c/v進linux終端。

提供兩種方法

wget

tar -zxvf ncbi-blast-2.10.0+-x64-linux.tar.gz

壓縮後就可以通過絕對路徑直接使用,這是乙個很好的習慣。當然也可以為了今後的方便,將blast+可執行程式所在目錄(bin)的絕對路徑加入到環境變數$path中,通過程式名直接呼叫。

#檢視軟體當前位置,建議有乙個專門存放軟體的資料夾

#獲取當前目錄的絕對路徑$# 檢視當前目錄的內容#進入bin檔案 如圖

​#bin的絕對路徑加入到環境變數$path中

echo "export path=/home/zukunft/biosoft/blast+/ncbi-blast-2.2.31+/bin:$path" >> ~/.bashrc

source ~/.bashrc

第二種

sudo apt-get update && sudo apt-get -y install python3 ncbi-blast+

#這將更新軟體列表並安裝python3和ncbi blast+。

​curl -o 

curl -o

​curl -o

#解壓gunzip mouse.1.protein.faa.gz

gunzip mouse.2.protein.faa.gz

​gunzip zebrafish.1.protein.faa.gz

ls -l

#如果檢視當前目錄中的檔案,應該會看到6個檔案

使用head命令,讓我們看看檔案中的前幾個序列:

head mouse.1.protein.faa

老鼠檔案前2個序列

斑馬魚:檔案前2個序列

np表示蛋白產物;主要是全長轉錄氨基酸序列,但也有一些只有部分蛋白質的部分氨基酸序列。

這些是fasta格式的蛋白質序列。fasta格式是很多人都見過的一種格式,它非常普遍。這是乙個文字檔案,其中包含記錄;每條記錄均以「>」開頭,然後包含一行或多行序列文字。

讓我們將前兩個序列(yp_220550.1 & yp_220551.1)儲存到乙個檔案中。我們將使用」>「實現輸出重定向,它表示將所有輸出都放到這個檔案中。

head -11 mouse.1.protein.faa > mm-first.fa
現在,你可以使用以下兩個命令列來檢視這個檔案的內容:

cat mm-first.fa

#或less mm-first.fa

準備好了資料,接下來讓我們將這兩個序列與整個斑馬魚蛋白序列做對比

#格式化資料庫 建庫

#首先,我們需要告訴blast,斑馬魚的序列是乙個資料庫,其次是乙個蛋白質資料庫。這是通過呼叫「makeblastdb」完成的:

​makeblastdb -in zebrafish.1.protein.faa -dbtype prot -parse_seqids

ls -l

#引數說明:

#-in:待格式化的序列檔案

#-dbtype:資料庫型別,prot或nucl

#-parse_seqids:解析序列標識(建議加上)

#blast+比對

​blastp -query mm-first.fa -db zebrafish.1.protein.faa -out mm-first.x.zebrafish.txt

​#引數說明:

#-query:輸入檔案路徑及檔名

#-out:輸出檔案路徑及檔名

#-db:格式化了的資料庫路徑及資料庫名

​less mm-first.x.zebrafish.txt

讓我們做更長的序列(這個需要更長的執行時間)

head -500 mouse.1.protein.faa > mm-second.fa

blastp -query mm-second.fa -db zebrafish.1.protein.faa -out mm-second.x.zebrafish.txt

#比較前83個序列(前500行),可以檢視輸出檔案

less mm-second.x.zebrafish.txt

關於blast+

blast+是blast的公升級,將blastn,blastx等程式與blastall命令分隔開來,對各個命令的引數定製更為方便。

blast+也是格式化資料庫和比對搜尋兩步,但命令不同。

makeblastdb -help  

blastp -help

在windows作業系統中使用linux

cygwin可以幫助使用者在windows作業系統中使用linux。1 供初學者學習linux 2 完成某些僅linux作業系統中能執行的操作 例如要壓縮檔案為tar.gz格式,可使用下面命令 tar zcvf tar xvzf c create a new archive x extract fi...

Linux系統 Ubuntu 中使用國內的源位址

1源位址列表檔案路徑 2源位址列表檔案的替換 2.1 ubuntu14.04版本 2.2 ubuntu16.04版本 ubuntu系統的源列表配置檔案的路徑是 etc apt sources.list 為了在替換前留個備份,可以執行命令做個備份 cp etc apt sources.list etc...

Linux系統 Ubuntu 中使用國內的源位址

1源位址列表檔案路徑 2源位址列表檔案的替換 2.1 ubuntu14.04版本 2.2 ubuntu16.04版本 ubuntu系統的源列表配置檔案的路徑是 etc apt sources.list 為了在替換前留個備份,可以執行命令做個備份 cp etc apt sources.list etc...