基因組 de novo 組裝原理

2021-09-09 01:59:58 字數 951 閱讀 2219

為了錯誤校正,將原始子reads進行overlap

預組裝和錯誤校正

錯誤校正後reads的overlap檢測

overlap的過濾

從overlap構建圖

從圖構建contigs

sub-reads是啥?為什麼要進行錯誤校正?校正的原理是什麼?length_cutoff和length_cutoff_pre分別是什麼意思,為什麼要設定這兩個引數?

sub-reads就是機器出來的reads經過處理後的子reads,方便軟體處理;

因為第三代測序是單分子測序,讀長大,reads長,錯誤率高,單條reads的正確率只有85%,必須進行校正。

如果測序深度足夠,那麼就可以構建overlap,根據概率學原理,可以進行校正。

cutoff就是扔掉長度不足的reads(例如:扔掉10k以下的reads),因為reads太短沒有多大意義,增加計算量,校正時,不能切掉太多的reads,所以其cutoff值較小;預組裝時,短reads該利用的資訊已經利用完了,可以扔掉了,所以其cutoff可以設定得稍微大些,減少計算量。

為什麼錯誤校正後還要進行overlap? 引數 -e.96 和 -e.70 分別是什麼意思?

因為錯誤校正後的reads變化非常之大,必須重新進行overlap,-e是一致性引數,就是精度的意思,組裝之前,因為錯誤率較高,可以容忍較低的一致性0.70;組裝時,reads已經校正好了,所以對一致性較高,調到了0.96.

為什麼要將overlap進行過濾?

為了砍掉一些沒有必要的計算,減少計算量,只選擇最好的n個overlap進行組裝,過濾掉重複序列。

構建圖構建contigs大致是個什麼意思?

就是根據overlap乙個乙個的把reads連起來,從前到後,因為重複序列的原因,必然會組成圖(圖會有各種形態)

然後根據一定的原則,去掉圖中一些沒有必要的邊,選擇一條最優的路徑,就可以組成我們想要的最終的contigs。

線粒體和葉綠體的基因組特點 基因和基因組

基因 gene 是能夠編碼蛋白質或者rna等具有特定功能產物的 負載遺傳資訊的基本單位,即有遺傳效應的dn 段 可以理解為 gene protein rna mrna trna rrna 基因組 genome 是指乙個生物體內所有遺傳物質的總和,對於含有線粒體或者葉綠體等結構的生物來說,還包括其中的...

初步組裝的雜合基因組如何去冗餘

redundans的目標是輔助雜合基因組的組裝,輸入檔案可以是組裝的contig,測序文庫以及額外的參考基因組,最後用於搭建出scaffold級別的純合基因組組裝結果。包括如下幾個步驟 對於我們三代組裝的結果而言,我們只需要去冗餘這一步即可。這一步一定要保證你的電腦上裝了zlib庫,不然就需要去修改...

基因組組裝結果質量評估

參考 乾貨 基因組組裝你了解多少?諾禾致源 動植物基因組de novo工作,其組裝指標的好壞直接影響著整個基因組的質量。而評估基因組組裝結果,contign50和scaffoldn50是第一指標,即contig scaffoldn50 將contig scaffold長度從長到短進行排序並累加,當累...