non reference轉錄組基因的差異表達分析

2021-09-10 14:28:25 字數 1021 閱讀 3229

比較基於de novo和reference-genome的轉錄組組裝來評估用於鑑定差異表達的基因(degs)的reference-free和-dependent兩種方法。

rna-seq raw reads用fastqc質檢,trimmomatic,prinseq。

cleaned reads用trinity用於de novo轉錄組組裝;同樣的cleaned reads set 用gsnap map到有reference genome的基因模型。

edger,deseq2,noiseq用來normalize read counts和檢測degs。

blast2go用於assign go terms to genes。

比較:轉錄組和基因組

map到de novo轉錄組的reads和reference-based genes

在兩種方法中找到的degs

兩組方法的go terms

去adapter,organellar,rrna和low-quality sequences,保證reads數在20到30百萬之間用於degs的發現。

由於轉錄本剪接變體和片段化序列的存在,只有將近90%的reads可以用trinity組裝,選出每個gene cluster中最長的基因來降低冗餘度。busco tools進行轉錄組的比對找出各自的single copy數和duplicated數,fragments和missing數。

用gsnap把處理好的reads比對到轉錄組和基因組上,去除比對到多個位點的 htseq-count 命令 「–s no –t gene –m union」對reads計數。生成轉錄本的gff特徵。每個基因總共map的reads被成衣read長度,除以基因長度。

只考慮read counts大於10的基因,p-value=0.001,deseq2, edger, noiseq三者取交集用於後續分析。

比較轉錄組和基因組的特徵counts使用r package 的prcomp包進行pca分析,將

de novo轉錄本和參考基因組匹配的6745個基因rpkm標準化後以及兩種方法鑑定的degs作為輸入。

轉錄組測序

轉錄組測序 轉錄組測序分析可以分為referring sequencing有參轉錄組分析和de novo無參轉錄組分析。有參無參的意思是,有 無參考基因組。1.獲得測序資料,fastq格式,稱之為raw data。fastq檔案說明 每四行為乙個單元。第一行 序列名稱 第二行 序列的鹼基 第三行 序...

轉錄組測序

資料分析與解讀 1.data cleaning 從原始資料 raw data 到乾淨資料 clean data 的過程,有人翻譯成 資料清洗 實在叫不習慣 illumina測序儀下機的資料通常為bcl格式,是將同乙個測序通道 lane 所有樣品的資料混雜在一起的,所以公司一般不會提供bcl檔案。測序...

轉錄組resequencing流程

重測序流程就是有參考基因組的流程,如果是真核生物一般使用tophat和cufflinks的組合方式,得到比對檔案,可變剪下檔案,組裝轉錄本結果 如果想得到某些條件下的新轉錄本,使用cuffmerge融合links得到的gtf檔案,再用cuffcompare把融合的gtf跟參考gtf比較即可,但是!結...