擴增子 巨集基因組測序問題集錦

2021-08-03 06:39:10 字數 3149 閱讀 1303

擴增子、巨集基因組測序問題集錦

原文**諾禾致源,點我閱讀原文。作者整理的非常好,值得學習。但本人又結合自己經驗進行了修改,並對每個問題例舉了例項和新增自己的理解(個人經驗部分)。

微生物,是地球上最古老的生命形式之一,它們雖然微小,卻無處不在。隨著高通量測序技術的發展,測序成本逐步降低,測序通量飛速提高,如今我們可以用更低的成本,對微生物進行更深入和更廣泛的研究。在微生物群落多樣性研究中,目前主要的技術包括擴增子測序和巨集基因組測序。今天楊萍給大家總結了10個擴增子和巨集基因組測序中常見的問題,希望其中恰好也有您想要問的問題哦~

老師在實驗室多採用nanodrop對dna濃度進行檢測,而在公司我們會結合qubit、nanodrop、瓊脂糖電泳三種方法檢測dna樣品的質量;

由於不同檢測方法的原理不同,所以檢測出的結果也會存在一定的差異。其中,nanodrop檢測法是基於紫外分光光度原理進行檢測,由於dna樣品中可能含有部分雜質,因此會造成結果虛高的現象;qubit檢測法則是基於螢光標記的原理進行檢測,結果會更準確;

當兩種檢測方法的結果出現差異時,我們以qubit檢測結果為準。

個人經驗:我用ctab法提取的小麥總dna, nanodrop檢測濃度大於1000 ng/ul,結果公司返回的檢測報告只有100 ng/ul,差別可達10倍。可能是植物多醣含量高,dna純度比較難保證。

在計算微生物群落樣品之間的距離時,加權是考慮到樣品中otus的相對豐度資訊,而非加權則沒有考慮物種的相對豐度資訊;

如果老師研究的生物學問題與物種的相對豐度資訊密切相關,使用加權演算法的結果展示可能更為符合;如果研究的生物問題與豐度關係不密切,或者各組的區分與低豐度的otus更為密切,則使用非加權的結果可能更為合適。

個人經驗:我們組研究的一般基因型等差別對微生物組的影響,權重是非常重要的,非加權(unweighted unifrac)的結果亂成一團,完全不適合;即使是加權的(weight unifrac)解釋也不好,感覺它們比較適合區分差別較大的不同生態位(niche)。我們用bray-curtis物種距離一般會有更好的解釋。

對於組的otu計數,採用的是取並集的方式(當該組的重複樣品中只要有乙個樣品存在該otu,那麼就認為該組內存在該otu,若所有重複樣品中都不存在該otu,即認為該組內不存在該otu)。

由於這三種統計分析方法所使用的統計檢驗的方法有所不同,因此得出的結果也會存在差異。其中,t-test使用的是t檢驗的方法,metastat會根據樣本情況自動調整統計的方法(秩和檢驗或fisher檢驗),而lefse則使用了秩和檢驗和線性判別分析(lda),這3種統計分析方法篩選結果均是可信的,老師可以根據自己的研究背景選擇最為符合的分析結果。

生物學重複通常建議5個以上,至少3個。對於重複樣品間存在較大差異的個別樣本,一般建議:

1. 從樣品的準備過程進行分析,生物學重複的樣品,除了和設定的分組條件有關外,可能還受到很多其他因素的影響,進而造成分析結果出現差異;

2. 對於出現顯著離群的個別樣本,推測可能為樣本自身的原因(如在取樣、保藏、提取、擴增過程中樣本出現了問題等),建議剔除該樣本後,再進行分析。

個人經驗:偏離較大的個別樣品,對整體的統計是影響不大的,如果不是明顯人為原因的錯誤,不建議原始資料隨便刪除此樣品。如果出現多個樣品出現異常,比如分為差別很大的兩類,要檢查操作中是與有影響的步驟,如種子混雜,分批取材、提取和擴增是否使用不同方法或試劑、barcode或index是否有偏好,建庫和測序是否同批等,找不到原因可再完全重複實驗驗證,確保實驗結果準確是最重要的。

巨集基因組組裝的效果主要跟以下幾個因素有關:樣本的測序資料量,物種的多樣性,物種豐度分布不均勻等,這些因素都會造成巨集基因組組裝比細菌等單物種的組裝更加困難,這也是目前巨集基因組研究中有待突破的重點。

兩者的分析方法存在較大差異:16s是先擴增後測序,而且不同物種dna的擴增倍數也不一致;在巨集基因組dna測序中,測序深度可能不是十分充分,並且巨集基因組分析得到的相對物種豐度的差異與dna提取以及測序的方法都密切相關;

兩者採用的物種注釋方法及資料庫都存在著一定差別:16s採用的是將16s rdna與greengene(或silva)資料庫進行比對注釋,只能注釋到細菌;而巨集基因組則是將**得到的基因與nr資料庫比對從而進行注釋,巨集基因組注釋得到的物種資訊更為全面,不僅包括細菌,還包括真菌、古菌以及病毒等

此外,16s擴增子和巨集基因組分析得到的注釋結果也會存在一定的相似點,比如在門水平上相對豐度排名靠前的物種的類別會出現相似等情況;

綜上所述,兩者的分析方法本身存在一定的差異,是導致16s擴增子和巨集基因組分析得到的注釋結果存在差別的主要原因,但同時兩者也有一定的相似之處。

個人經驗例項:兩者在細菌有多大差別?下面舉乙個我同學海哥的分析例項,對某樣品同時進行16s和metagenome,其中展示了細菌中豐度大於1%的菌屬種類,16s有15個屬,metagenome有14個屬,兩者共有只有3個屬,用黃色高亮顯示。

個人感覺差異原因主要來自測序目標、技術方法、分析軟體及資料庫均不同。因為很多文章在taxonomy水平更多使用16s的結果,而功能注釋keeg/cog則使用metagenome的結果。

不同樣本中高丰度物種的差異很大,如果把所有樣本都混合在一起進行組裝,將會大大增加資料的複雜度,組裝效果可能會更差。

1)由於受到測序深度及測序成本的影響,在現在的巨集基因組文章中,測序資料量一般選擇6g,可以測出樣品中絕大多數的微生物,但是對於一些低豐度的物種,因為測序深度的原因,確實很有可能會組裝不出來;

2)在巨集基因組分析中,也一般多關注的是較高丰度物種的組成情況,如果要對低豐度物種進行特殊分析,一般需要加大測序資料量,或者在前期提取過程中經過一些特殊的處理,盡可能的富集出多的低豐度物種,再進行測序分析。

個人經驗:6g資料只適合簡單系統,如人類腸道等,對於複雜系列,如土壤,致使測序幾十到幾百g,也可能也會深度不足。

隨著人們對抗性基因相關研究的廣泛關注,我們巨集基因組的標準分析中推出了抗性基因的相關分析。並且,由於自2023年ardb資料庫再無更新,因此我們目前所用的抗性基因資料庫為card資料庫。

擴增子聚類之術語「 seed 」

前面的swarm聚類文章中講到過,seed 是 de novo 思想的演算法在聚類時,選擇的第乙個作為質心或起點的高丰度擴增子,它通常作為 cluster 的代表序列參與物種注釋等其它分析。從計算機角度來看 演算法的開始,建立乙個初始為空的資料庫,並在處理輸入序列擴充套件資料庫。對於每乙個 clus...

易生信 擴增子教程02 真菌引物選擇

距離上次 生信寶典 聯合 巨集基因組 組織的擴增子分析線下培訓結束己經有三個多月了。為方便廣大讀者的學習,現在開始陸續分享上次培訓的內部資料 理論課程課件。希望對想自學分析的朋友起到一定幫助作用。首先講一下真菌的定義,真菌通常指的是真菌界的生物,是一類單細胞或多細胞異養真核微生物,無光合色素,細胞壁...

擴增子文獻筆記2擬南芥根微生物組的結構和組成

現在paul組的很多成員都成了教授,比如遺傳發育所的沈前華和白洋研究員均曾經是paul組的博士後。背景 植物根系是多細胞真核生物與土壤接觸的介面,而土壤是地球上最富集微生物的生態系統之一。眾所周之,土壤細菌可以在根系內部繁殖,作為良性的內生菌調節植物生長和發育,以及增加作物產量和植物修復。內生菌的定...