轉錄組分析的正確姿勢

2021-08-09 08:40:37 字數 2001 閱讀 8340

轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因、標誌基因、協同變化基因、差異剪接和新轉錄本,並進行結果視覺化、功能注釋和網路分析等。

轉錄組的測序分析也相對成熟,從rna提取、構建文庫、上機測序再到結果解析既可以自己完成,又可以在專業公司進行。概括來看轉錄組的分析流程比較簡單,序列比對-轉錄本拼接 (可選)-表達定量-差異基因-功能富集-定製分析。整個環節清晰流暢,可以作為最開始接觸高通量測序學習最合適的技術之一。

但重點和難點在於理解這些過程都是怎麼做的,有什麼需要注意的,結果怎麼解讀,後續分析怎麼做。這些只有自己動手操作過,才可能有理解。而理解了乙個,再去做其它型別分析,也會輕鬆很多。

實驗設計這塊重要的是對照和至少3個生物學重複,並選擇合適的測序通量。encode要求重複之間的spearman correlation值大於0.9(遺傳背景不一致的生物重複相關係數要大於0.8)。定量基因表達和評估轉錄圖譜相似性只需要中等測序深度;而研究新轉錄本和可變剪接則需要更深的測序;一般來講長rna-seq文庫測序深度滿足可用reads20-30 million(如果測pe150,換算成鹼基數為6g-9g)。

另外乙個需要注意的是測序的批次效應,保證自己的樣品同時處理、rna同時提取、同時構建文庫和上機測序。這些環節雖然不能總受我們控制,但記錄下對應的操作時間和批次,最後在繪製表達圖譜時與實驗相關引數進行關聯展示,從而保證結果沒有受到試驗中處理批次的影響。encode計畫有一篇文章在比較人和小鼠不同組織的表達譜相似度時得到的結果是樣品按物種而非組織聚在一起,這與之前認為的發育通路的保守性不符。後來發現是測序批次搗的鬼,做了批次效應矯正後,表達圖譜按組織而非物種聚在一起了。

測序環節通常不需要自己操作,測序公司都很成熟,但測序的原理需要知道。這會影響到後續分析時引數的選擇,比如知道什麼是插入片段大小,什麼是鏈特異性測序,什麼情況會有接頭序列,雙端測序如何測等。

39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強)中講述了如何選擇、評估合適的比對工具,序列拼裝工具,定量工具和差異分析工具。值得我們在進入正式的分析之前,仔細閱讀。另外類似的評估文章,還有幾篇,都可以一併讀一下,這樣在後期分析時對工具的選擇和使用才更得心應手。

工具比較類文章一般只告訴你做了什麼,不告訴你這麼做的原因是什麼,而且每一步細分開來又有很多小細節需要注意,比如在比對環節就會涉及到:不同的樣本如何選擇合適的基因組和注釋檔案,什麼樣的軟體支援junction reads的比對,什麼樣的比對率是合適的,比對質量怎樣,測序中rna有無降解或選擇偏好性,測序飽和度如何等。

這些可能都不會體現在最終的結果中,但都是確保後期結果可靠性所必須要做的事情。2023年諾貝爾獎得主sydney brenner曾對資料分析做過提醒garbage in, garbage out。軟體是死的,提供了格式正確的輸入,就可以得到輸出,但輸出正確與否,就得靠人的經驗來判斷了。

在後面的差異基因鑑定階段,還存在把fpkm值轉換為整數再提交給deseq2做分析的,軟體不報錯,但結果不對。或者能順著教程執行deseq2分析,但換成自己的資料就不知道如何下手的。這些問題都需要在實踐過程中持續不斷的試錯、閱讀更多的文章和教程來步步矯正。這當然是乙個耗時耗力的過程,那麼有沒有乙個更好的方式呢?

生信寶典團隊經過緊張的籌備,決定推出一系列的針對生信學習和高通量分析的學習小組(在生信學習系列教程的基礎上進一步拓展和深入),跟大家一起去走過這段歷程。我們的口號是易生信,畢生緣,希望能通過短暫高強度的訓練快速推進大家在生信分析領域的進展。

轉錄組分析 轉錄組分析 使用STAR進行比對

通過二代測序我們可以獲得150bp左右的reads,如果想要知道reads是從哪個轉錄本上測出來的,就需要將reads比對到參考基因組上。比對的演算法很複雜,但簡單理解就是看reads與基因組上哪個區域一致。wget c 解壓 star tar xvzf 2.7.3a.tar.gz 執行 star ...

轉錄組分析處理流程

1.fastqc 2.star build index star runthreadn 9 runmode genomegenerate genomedir data xx bio task le mir 03 2mirseq index genomefastafiles data xxbio ta...

轉錄組分析 高階轉錄組分析和R資料視覺化

常規轉錄組是我們最常接觸到的一種高通量測序資料型別,其實驗方法成熟,花費較低,是大部分cns必備的技術,以後應該就如做個pcr一樣常見。而且分析思路簡潔清晰,是入門生信,學習生信分析思路和資料視覺化的首選。資料分析是相通的,通過乙個簡單的課程理解其中的原理,就可以推而廣之,延伸到其它型別的資料分析,...