應該是最好的eggnog mapper功能注釋教程

2021-09-19 21:20:55 字數 2074 閱讀 1395

第一步:序列比對。首先,每條蛋白序列用hmmer3在整理的eggnog資料庫中搜尋。由於每個hmm匹配都和乙個功能注釋的eggnog og對應,這一步就提供了初步的注釋資訊。之後,每條蛋白序列用phmmer在最佳匹配的hmm對應的一組eggnog蛋白中進一步搜尋。最後,每條序列的最佳匹配結果以seed ortholog形式存放,用於獲取其他直系同源基因。目前eggnog hmm資料庫中擁有1,911,745個og,覆蓋了1,678種細菌,115種古細菌,238種真核物種以及352種病毒。除了hmmer3外,還而可用diamond直接對所有的eggnog蛋白序列進行搜尋,它的速度更快,適合類似於巨集基因組這類大資料集,或者是已有物種和eggnog所收集的物種比較近。當然伺服器效能強大的話,還是有限選擇hmmer3.

第二步:推測直系同源基因。每個用於檢索的蛋白序列的最佳匹配序列會對應eggnog的乙個蛋白, 這些蛋白基於預分析的eggnog進化樹資料庫會提取一組更加精細的直系同源基因。這一步還會根據bit-screo或e-value對結果進行一次過來,剔除同源性不高的結果

第三步:功能注釋。用於搜尋的蛋白序列對應的直系同源基因的功能描述就是最終的注釋結果。比如說go, kegg, cog等。

#假如我們現在都仍在軟體安裝的路徑下
如果伺服器記憶體比較大,執行緒比較多,可以用--usemem和--cpu 執行緒數提高執行速度。

--output表示輸出檔案的字首,預設輸出在當前資料夾下,--output_dir可以更改為其他檔案路徑。--resume表示任務重啟後可以跳過之前已經完成的部分, 而--override則表示覆蓋原先的輸出結果。

# 終端1

# 新建乙個終端

query_name: 檢索的基因名或者其他id

sedd_eggnog_ortholog: eggnog中最佳的蛋白匹配

seed_orholog_evalue: 最佳匹配的e-value

seed_ortolog_evalu: 最佳匹配的bit-score

predicted_gene_name: **的基因名,特別指的是類似ap2有一定含義的基因名,而不是at2g17950這類編號

go_term: 推測的go的詞條, 未必最新

kegg_ko: 推測的kegg ko詞條, 未必最新

bigg_reactions: bigg代謝反應的**結果

annotation_tax_scope: 對該序列在分類範圍的注釋

matching_ogs: 匹配的eggnog orthologous groups

best_og|evalue|score: 最佳匹配的og(hmm模式才有)

cog functional categories: 從最佳匹配的og中推測出的cog功能分類

eggnog_hmm_model_annotation: 從最佳匹配的og中推測出eggnog功能描述

如果打算做富集分析,用命令列的cut/awk提取對應的列,過濾掉其中未注釋的部分就行了。

應該是老了

都說人老了,會對新生事物缺乏興趣。我看我目前的狀態,就是這個樣子。看了兩篇文章 中國十大搖滾樂隊 除了張炬 愛你們的男孩都老了 裡面的某些人的名字,當我高中和大學時聽到時,都能沸騰一會兒。乙個二愣子青年,聽到架子鼓的當 當 當。就能瞎激動起來。但,現在不會了。看過汪峰的訪談,他談到和他同輩的搖滾老炮...

遊戲應該是怎樣的

我們太習慣於標準答案了,以至於認為這世界上的任何問題都有標準答案。在紛繁複雜的遊戲理論 數值分析 設計潮流中,遊戲設計師迷失了自己,玩家也變得憤怒。安靜下來,問問自己,遊戲應該是怎樣的 遊戲是一種媒介,是遊戲設計師向玩家的一種表達。玩家從遊戲中感受設計師所想要表達的東西,這一點上,遊戲和電影 文學無...

理解Python閉包,這應該是最好的例子

此文 自 作為一種程式語言特性,閉包得到了很多程式語言的支援,python也不例外。所謂閉包,在python中指的是攜帶乙個或多個自由量的函式。閉包函式的自由量不是函式的引數,而是生成這個函式時的環境變數。一旦閉包生成了,自由變數會繫結在函式上,即使離開創造它的環境,自由量依舊有效。總結一下,閉包的...