fastq質量值 轉錄組入門3 測序資料質量檢查

2021-10-17 06:49:42 字數 1619 閱讀 3886

目的與任務:了解fastq測序資料

作業:理解測序reads,gc含量,質量值,接頭,index,fastqc的全部報告,搜尋中文教程,併發在論壇上面

sra檔案轉換為fastq檔案

2.檢視本地幫助

從開啟的頁面中我們能大概了解到fastq-dump命令的基本用法。然後我在本地的centos上又執行了幫助命令來檢視本地版的命令說明。

fastq-dump -h #顯示幫助

顯然,本地的幫助說明更詳細一點。

先看用法:「fastq-dump [各種引數] 」其中,[各種引數]在幫助中有詳細介紹,根據博主@徐洲更以及@沈夢圓的文章介紹,我們常用到的引數主要是以下兩部分的:

*關於輸出:

-o 指定輸出路徑

--gzip 指定輸出格式為gzip壓縮格式(fastqc軟體可以直接識別gzip壓縮的檔案)

--bzip2 指定輸出格式為bzip2壓縮格式

*多個檔案引數

--split-3 如果是雙端測序資料,則輸出兩個檔案,如果不是則只輸出乙個檔案。

明白了fastq-dump的常用引數,我們就得到了轉換sra檔案的套路:

fastq-dump --gzip --split-3 -o path -a accession

for i in `seq 56 62`

dofastq-dump --gzip --split-3 -o ./fastq/ -a srr35899$.sra

done

以上命令在vim中編輯,儲存為.s**件後,通過bash執行,注意seq前的撇不是單引號。

3.檢視轉換結果

轉換後生成一系列以.sra_1.fastq.gz以及.sra_2.fastq.gz結尾的壓縮檔案。

fastqc檢測測序檔案質量

1.多個檔案批量進行qc

進入轉換後fastq.gz檔案所在的檔案中,用以下命令生成批量執行的指令碼

ls ./*fastq.gz | xargs -i echo fastqc -o ./fastqc_result --nogroup {} \& > fastqc.sh

執行結果會生成乙個名稱為fastqc.sh的指令碼,執行該指令碼即可對當前資料夾下的fastq.gz檔案進行qc。

bash fastqc.sh

2.檢視qc結果

2.1單獨檢視

關於單獨的qc結果檔案,大家可以看我以前的幾個入門帖子了解基本知識。

2.2multiqc彙總檢視

multiqc是一款批量檢視qc結果的軟體,大大節省了我們開啟多個qc結果檔案的時間,具體使用方式可以檢視我的知乎專欄上的介紹:

3.fastqc報告中哪些是值得關注的?

1).basic statistics

2).per base sequence quality

3).per base sequcence content

4).adaptor content

5).sequence duplication levels

主要的幾個指標是gc含量,q20和q30的比例以及是否存在接頭(adaptor)、index以及其他物種序列的汙染等。

1.基因課課程《測序資料過濾與質控》(

4.孟浩巍知乎專欄文章《20160410測序分析-使用fastqc做質控》

fastq質量值 fastq格式檔案處理大全(三)

從計算機的角度來說,生物的序列屬於一種字串,也是一種文字,因此生物資訊分析屬於文字處理範疇。文字儲存為固定格式檔案,生物資訊的工作就是各種文字檔案之間格式的轉換,例如通過序列拼接將fastq轉換為fasta,通過短序列比對將fastq與fasta合併為bam,通過變異檢測將bam中突變位點提取出來轉...

轉錄組測序

轉錄組測序 轉錄組測序分析可以分為referring sequencing有參轉錄組分析和de novo無參轉錄組分析。有參無參的意思是,有 無參考基因組。1.獲得測序資料,fastq格式,稱之為raw data。fastq檔案說明 每四行為乙個單元。第一行 序列名稱 第二行 序列的鹼基 第三行 序...

轉錄組測序

資料分析與解讀 1.data cleaning 從原始資料 raw data 到乾淨資料 clean data 的過程,有人翻譯成 資料清洗 實在叫不習慣 illumina測序儀下機的資料通常為bcl格式,是將同乙個測序通道 lane 所有樣品的資料混雜在一起的,所以公司一般不會提供bcl檔案。測序...