fastq質量值 fastq格式檔案處理大全(三)

2021-10-12 21:09:48 字數 1529 閱讀 9503

從計算機的角度來說,生物的序列屬於一種字串,也是一種文字,因此生物資訊分析屬於文字處理範疇。文字儲存為固定格式檔案,生物資訊的工作就是各種文字檔案之間格式的轉換,例如通過序列拼接將fastq轉換為fasta,通過短序列比對將fastq與fasta合併為bam,通過變異檢測將bam中突變位點提取出來轉換為vcf。因此,我們可以通過總結每一種生物資料檔案格式的處理方法來學習生物資訊,這樣當拿到固定格式的檔案之後,就知道該如何來處理了。
fastq格式檔案處理大全(一)fastq格式檔案處理大全(二)

過濾短的序列

ion torrent,pacbio,nanopore測序的fastq檔案序列長度並不相同,通常需要過濾較短的序列,例如過濾掉長度小於150bp的序列。可以使用seqtk seq或者seqkit seq進行操作。

#過濾小於150bp序列,並壓縮輸出 

seqkit seq -m 150 nanopore.fastq.gz | gzip - >filter_150.fq.gz

seqtk seq -l 150 nanopore.fastq.gz

#保留小於150bp序列

seqkit seq -m 150 nanopore.fastq.gz

轉換為列**式如何將fastq格式轉換為列**式?可以使用seqkit fx2tb,為什麼要做這一步處理呢,轉換為列表,這樣方便根據id進行處理。將四行資料轉換為一行三列,這樣就可以使用常用的列表處理程式來進行處理,例如awk。當然處理完了,還可以使用tab2fx將列表轉為換fastq格式。

seqkit fx2tab srr8651554_1.fastq.gz
質量值轉換目前測序得到的fastq檔案,都採用phred+33的格式,但是如果處理之前的檔案,還有可能遇見phred+64的模式,一般軟體中包含--phred33或者--phred64選項,當然也可以直接在兩種質量值之間進行轉換。

#將illumina 1.8轉換為1.5

seqkit convert --to illumina-1.5+ srr8651554_1.fastq.gz |head -4

#將illumina 1.5轉換為1.8,什麼都不加就是轉換為1.8

seqkit convert srr8651554_illmina1.5.gz

質量控制qcfastq格式的質量控制其實非常簡單,我們前面統計的各種指標,質控軟體可以一次性進行統計,繪製出質控圖,包括鹼基含量分布圖與鹼基質量分布圖通過這兩個圖來判斷fastq檔案***壞。可以一次性統計很多檔案,每個測序資料會生成乙個html格式結果和乙個壓縮格式的資料夾。如果樣品太多可以使用multiqc合併多個結果。

fastq質量值 轉錄組入門3 測序資料質量檢查

目的與任務 了解fastq測序資料 作業 理解測序reads,gc含量,質量值,接頭,index,fastqc的全部報告,搜尋中文教程,併發在論壇上面 sra檔案轉換為fastq檔案 2.檢視本地幫助 從開啟的頁面中我們能大概了解到fastq dump命令的基本用法。然後我在本地的centos上又執...

fasta與fastq格式檔案解讀

1 fasta檔案的格式 在生物資訊學中,fasta格式 又稱為pearson格式 是一種基於文字的 用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來表示,且允許在序列前新增序列名及注釋。fasta檔案以序列表示和序列作為乙個基本單元,各行記錄資訊如下 第一行是由大於號 ...

perl 擷取 fastq檔案

usr bin perl w usewarnings usestrict my usage qq die usage n if scalar argv 2 my fastq,trim length argv open fastq,fastq or die can t open fastq n whi...