RNA Seq分析筆記(2)

2021-10-10 09:42:54 字數 3964 閱讀 5379

檔案分割

使用下面命令將srr分割開來。

fastq-dump --gzip --split-

3 srr3589956.sra; done

生成之後,結果如下:

[biochem@qcgate step3_hisat2]$ ls *

.gz -l

-rw-rw-r--

1 biochem biochem 1223462176 nov 1022:

13 srr3589956_1.fastq.gz

-rw-rw-r--

1 biochem biochem 1243288534 nov 1022:

13 srr3589956_2.fastq.gz

如果沒有–gzip 就不會自動生成.gz的壓縮檔案。帶這個引數就輸出gz的壓縮格式,好處是節省空間,而且比對軟體一般都支援。

–split-3

使用下面命令將sra檔案進行分割,一般分隔為兩份。也就是將雙端測序分為兩份,放在不同的檔案,但是對於一方有而一方沒有的reads會單獨放在乙個資料夾裡。

2023年11月11日 上午 晴(南昌)

(2) 比對檔案所在路徑:

/home/biochem/data/homosapiens/step3_hisat2/

(3) 比對結果檔案儲存路徑:

/home/biochem/data/homosapiens/step3_hisat2/aligned/

執行如下比對命令,生成比對結果檔案。

hisat2 -t -x /home/biochem/data/homosapiens/step1_rawdata/hg19_ref/genome -

1/home/biochem/data/homosapiens/step3_hisat2/srr3589956_1.fastq.gz -

2/home/biochem/data/homosapiens/step3_hisat2/srr3589956_2.fastq.gz -s /home/biochem/data/homosapiens/step3_hisat2/aligned/srr3589956.sam

-t 指定記錄執行時間。

-x 提示後面內容為參考基因組的索引檔案路徑。

/home/biochem/data/homosapiens/step1_rawdata/hg19_ref/ 指的是參考基因組索引檔案所在目錄。

genome指的是參考基因組索引「檔名」(不包括字尾的部分的檔名稱)。

-1 指定後面將進行的第一分隔檔案的比對。

/home/biochem/data/homosapiens/step3_hisat2/srr3589956_1.fastq.gz 要進行比對sra檔案的第一分隔檔案的路徑。

-2指定後面將進行的第二隔檔案的比對。

/home/biochem/data/homosapiens/step3_hisat2/srr3589956_2.fastq.gz 要進行比對sra檔案的第二分隔檔案的路徑。

-s 提示後面為比對結果輸出路徑

/home/biochem/data/homosapiens/step3_hisat2/aligned/srr3589956.sam 表示生成的比對結果存於srr3589956.sam檔名,並存於/home/biochem/data/homosapiens/step3_hisat2/aligned/資料夾下。

執行之後結果如下:

time loading forward index:00:

00:20time loading reference:00:

00:03multiseed full-index search:00:

26:3028856780 reads; of these:

28856780

(100.00

%) were paired; of these:

1838758

(6.37

%) aligned concordantly 0 times

24733251

(85.71

%) aligned concordantly exactly 1 time

2284771

(7.92

%) aligned concordantly >

1 times

----1838758 pairs aligned concordantly 0 times; of these:

90903

(4.94

%) aligned discordantly 1 time

----1747855 pairs aligned 0 times concordantly or discordantly; of these:

3495710 mates make up the pairs; of these:

2034758

(58.21

%) aligned 0 times

1221302

(34.94

%) aligned exactly 1 time

239650

(6.86

%) aligned >

1 times

96.47

% overall alignment rate

time searching:00:

26:35overall time:00:

26:55

[biochem@qcgate aligned]$ ls -l

total 15758288

-rw-rw-r--

1 biochem biochem 16136480585 nov 1111:

09 srr3589956.sam

顯示生成了srr3589956.sam檔案。

2023年11月11日 下午 晴(南昌)

此命令只單獨比對srr3589956,若要執行多個檔案,則可以使用vim新建srr.s**件,內容如下:

for i in 'seq 57 58'

do hisat2 -t -x /home/biochem/data/homosapiens/step1_rawdata/hg19_ref/genome -

1/home/biochem/data/homosapiens/step3_hisat2/srr35899$_1.fastq.gz -

2/home/biochem/data/homosapiens/step3_hisat2/srr35899$_2.fastq.gz -s /home/biochem/data/homosapiens/step3_hisat2/aligned/srr35899$

.sam

done

注意,新建的srr.s**件是不能直接執行的,因為新建的shell檔案預設只有讀和寫得許可權,因此需要首先新增執行的許可權,命令如下:

chmod +x srr.sh
這樣,srr.s**件就可以執行了,在命令列目錄下執行:

.

/srr.sh

即可開始執行多個檔案的比對。

linux系統下設定環境變數很多人不太理解它的設定的意義。舉個例子,比如想要任何目錄下執行可執行程式,那麼該可執行程式檔案的所在的目錄就要加到環境變數中,以便讓計算機自動搜尋到該程式所在的目錄,調出可執行檔案的程式來執行。通俗的說,設定系統能自動搜尋到的路徑目錄,就是設定環境變數。這個路徑目錄可以有很多,一般都是系統安裝的可執行的命令所在的路徑目錄。

這個語句時當前設定環境變數的方法。

export path="$path:/home/biochem/program/anaconda2/bin/"

$path: 表示之前的環境變數繼續保持。

/home/biochem/program/anaconda2/bin/ 冒號後的路徑是新新增的環境變數的路徑。

RNA seq分析流程

高通量測序知識 fastqc使用,相對應的r包fastqcr,rqc fastp biostrings包計算gc含量,q20等 library biostrings filepath system.file extdata s 1 sequence.txt package biostrings qd...

RNA seq 基本分析流程

easoncheng 高通量測序技術,就是二代測序,已經成為現代生物學研究的乙個較為常規的實驗手段。這一技術的發展極大地推動了基因組學,表觀基因組學以及翻譯組學的研究。rna seq 通過測定穩定狀態下的rna樣品的序列來對rna樣品進行研究,從而避免了許多之前研究手段的不足,比如象基因晶元或者 p...

RNA seq 3 學習筆記 序列對比

主要參考 chip詳細分析流程 序列比對 hisat2 1.需要建立乙個index檔案有兩種方法。為啥要這個index?需要把測序資料和這個參考基因組做對比,但是又不能直接和基因組做對比,不然哪兒跟哪兒可能區分不開,只能拿個簡化版的注釋檔案做對比。其實hisat2 buld在執行的時候也會自己尋找e...