擴增子聚類之術語「 seed 」

2021-10-08 00:11:26 字數 739 閱讀 6898

前面的swarm聚類文章中講到過,「 seed 」 是 de novo 思想的演算法在聚類時,選擇的第乙個作為質心或起點的高丰度擴增子,它通常作為 cluster 的代表序列參與物種注釋等其它分析。

從計算機角度來看:演算法的開始,建立乙個初始為空的資料庫,並在處理輸入序列擴充套件資料庫。對於每乙個 cluster , 資料庫只精確地包含乙個代表性序列。

在uclust中,「 seed 序列 」 這個術語不再使用,為了避免與 blast 和 ublast 等演算法中的對齊種子(即:查詢序列與參考序列比對上的匹配詞)混淆。作為替代,稱質心為「 代表序列 」。

在這裡用ublast舉例來說:

ublast是 edgar 開發的 usearch 包中的乙個工具。

ublast最常用於蛋白質或翻譯搜尋,低相似度的序列比對就可以提供資訊。ublast也支援核苷酸搜尋,但usearch通常更合適,因為核苷酸同源性只有在序列之間具有高相似度時才能檢測到。

因此,ublast被設計為對較遠的( more distant)序列關係敏感,usearch對於這些序列而言敏感度較低,例如蛋白質的識別率(identity)低於50%。而當序列識別率較低時,查詢序列和資料庫參考序列可能只有乙個簡短的匹配詞(common k mer),如下圖所示。這個匹配詞稱作 「seed」(即:種子)。

擴增子 巨集基因組測序問題集錦

擴增子 巨集基因組測序問題集錦 原文 諾禾致源,點我閱讀原文。作者整理的非常好,值得學習。但本人又結合自己經驗進行了修改,並對每個問題例舉了例項和新增自己的理解 個人經驗部分 微生物,是地球上最古老的生命形式之一,它們雖然微小,卻無處不在。隨著高通量測序技術的發展,測序成本逐步降低,測序通量飛速提高...

易生信 擴增子教程02 真菌引物選擇

距離上次 生信寶典 聯合 巨集基因組 組織的擴增子分析線下培訓結束己經有三個多月了。為方便廣大讀者的學習,現在開始陸續分享上次培訓的內部資料 理論課程課件。希望對想自學分析的朋友起到一定幫助作用。首先講一下真菌的定義,真菌通常指的是真菌界的生物,是一類單細胞或多細胞異養真核微生物,無光合色素,細胞壁...

擴增子文獻筆記2擬南芥根微生物組的結構和組成

現在paul組的很多成員都成了教授,比如遺傳發育所的沈前華和白洋研究員均曾經是paul組的博士後。背景 植物根系是多細胞真核生物與土壤接觸的介面,而土壤是地球上最富集微生物的生態系統之一。眾所周之,土壤細菌可以在根系內部繁殖,作為良性的內生菌調節植物生長和發育,以及增加作物產量和植物修復。內生菌的定...