fasta與fastq格式檔案解讀

2022-09-13 21:54:25 字數 720 閱讀 2908

1、fasta檔案的格式

在生物資訊學中,fasta格式(又稱為pearson格式)是一種基於文字的、用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來表示,且允許在序列前新增序列名及注釋。

fasta檔案以序列表示和序列作為乙個基本單元,各行記錄資訊如下:

第一行是由大於號">"開頭的任意文字說明,用於序列標記,為了保證後續分析軟體能夠區分每條序列,單個序列的標識必須具有唯一性。;

從第二行開始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號。通常核苷酸符號大小寫均可,而氨基酸常用大寫字母。使用時應注意有些程式對大小寫有明確要求。檔案每行的字母一般不應超過80個字元。

2、fastq檔案格式

fastq是基於文字的、儲存核酸序列和其測序質量資訊的標準格式。其序列以及質量資訊都是使用乙個ascii字元標示,最初由sanger開發,目的是將fasta序列與質量資料放到一起,目前已經成為高通量測序結果的事實標準。

fastq檔案中以四行最為乙個基本單元,並對應一條序列的測序資訊,各行記錄資訊如下:

第一行記錄序列標識以及相關的描述資訊,以『@』開頭,為了保證後續分析軟體能夠區分每條序列,單個序列的標識必須具有唯一性;

第二行為鹼基序列;

第三行以『+』開頭,後面是序列標示符、描述資訊,或者什麼也不加;

第四行,是質量資訊,長度和第二行的序列相對應,每乙個序列都有乙個質量評分,根據評分體系的不同,每個字元的含義表示的數字也不相同。

fastq質量值 fastq格式檔案處理大全(三)

從計算機的角度來說,生物的序列屬於一種字串,也是一種文字,因此生物資訊分析屬於文字處理範疇。文字儲存為固定格式檔案,生物資訊的工作就是各種文字檔案之間格式的轉換,例如通過序列拼接將fastq轉換為fasta,通過短序列比對將fastq與fasta合併為bam,通過變異檢測將bam中突變位點提取出來轉...

texi格式檔案

ffmpeg自帶文件及示例程式,存放在doc目錄下,文件對ffmpeg各個模組都有說明。發現乙個問題,很文件擴充套件名為 texi,如ffplay.texi ffmpeg.texi等。用文字編輯器開啟,發現其中多了一些特殊的標記,在ubuntu乙個命令texi2html,可以將 texi檔案轉換成h...

texi格式檔案

ffmpeg自帶文件及示例程式,存放在doc目錄下,文件對ffmpeg各個模組都有說明。發現乙個問題,很文件擴充套件名為 texi,如ffplay.texi ffmpeg.texi等。用文字編輯器開啟,發現其中多了一些特殊的標記,在ubuntu乙個命令texi2html,可以將 texi檔案轉換成h...