巨集轉錄組學習筆記一

2021-10-04 05:18:55 字數 3373 閱讀 8932

前面提到,已經有兩家公司通過巨集轉錄組(metatranscriptomics)測序檢測腸道微生物,面向消費者提供檢測服務。對巨集轉錄組充滿了好奇,有這樣的比方說,巨集基因組可以告訴我們這個微生物群落可能有什麼樣的功能(潛能),巨集轉錄組就是告訴我們群落正在做什麼,相比巨集基因組的眉毛鬍子一把抓,巨集轉錄組是更針對當下的結果。由於測序的目標序列少了很多,結果不是**大,對計算機的配置要求也相對降低。苦於想學巨集基因組暫時沒有伺服器的我,就退而求其次試試巨集轉錄組了,相信不會讓我失望。之前學習過單轉錄組資料的分析,一般的筆記本(雙核,8g ram)扛了下來。鑑於中文網路上能找到的巨集轉錄組教程基本沒有,只在github上搜尋到兩個,選其中乙個學習下。

整理了乙個流程圖放在這裡,和普通轉錄組的區別在於多了個物種注釋的過程。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-ykupvo3o-1584769876763)(

#首先安裝conda, 新增清華源加速,教程有很多,這裡省略

#建立乙個新的工作環境

conda create -n tara

#啟用工作環境

source activate tara

#安裝所需軟體

conda install fastqc multiqc trimmomatic khmer \

busco megahit sourmash salmon r dammit cd-hit -y

#可選,如果後面要把環境打包,可以匯出乙個環境的軟體安裝列表,如果哪天可以整體打包檔案就好了

#conda env export -n tara -f $project/tara_conda_environment.yaml

#安裝conda中沒有的其他軟體

cdwget

tar zxvf transrate-1.0.3-linux-x86_64.tar.gz

#新增環境變數

echo

>> ~/.bashrc

source ~/.bashrc

#安裝 hmmer

wget

tar zxvf hmmer.tar.gz

資料來自塔拉海洋探險(2009-2013)取樣對比世界海洋生態系統,利用現代測序和最先進的成像技術收集環境資料和浮游生物,從病毒到後生動物,用於以後的分析。它對20個生物地理省份中的210個生態系統進行了調查,收集了35,000多個海水和浮游生物樣本。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-hm2oncsm-1584769876770)(

我們選擇分析的資料是《全球海洋真核基因圖集》的一部分(carradec et al.2018)。本文使用跨轉錄組學的方法對tara海洋資料進行了研究,從浮游性真核生物中生成了乙個全球海洋參考基因目錄,並**了它們在生物地理學和環境條件方面的表達方式。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-xpjqdxik-1584769876772)(

在本次研討會上,我們選擇了東太平洋的tara 135、136和137站,您可以在下面的地圖上看到它們。我們分析了大小為5-20µm的mrnaseq樣品(選擇了poly-a,因此可能大部分包含真核序列)中的資料,因為該部分在我們選擇的tara工作站上具有良好的重複性。對於大多數教程,我們使用這些資料的一小部分,以使程式執行時在研討會中可行。您可以通過開放式科學資源找到完整的資料,以發現和分析塔拉海洋資料(pesant等,2015)。將向您展示如何從您的資料中獲得與上述tara**相同的答案!

#建立工作目錄和資料目錄

mkdir -p work/data

#轉到工作目錄

cd work/data

wget -c -o tara135_1m.zip --no-check-certificate

wget -c -o tara136-137_1m.zip --no-check-certificate

#解壓資料,並讓資料不容易誤刪除

unzip tara135_1m.zip

unzip tara136-137_1m.zip

chmod u-w *fq.gz

#為了簡單,定義乙個project變數

export project=~/work

#檢視檔案

ls $project/data/

tara_135_dcm_5-20_rep1_1m_1.fq.gz tara_136_srf_5-20_rep1_1m_2.fq.gz

tara_135_dcm_5-20_rep1_1m_2.fq.gz tara_136_srf_5-20_rep2_1m_1.fq.gz

tara_135_dcm_5-20_rep2_1m_1.fq.gz tara_136_srf_5-20_rep2_1m_2.fq.gz

tara_135_dcm_5-20_rep2_1m_2.fq.gz tara_137_dcm_5-20_rep1_1m_1.fq.gz

tara_135_srf_5-20_rep1_1m_1.fq.gz tara_137_dcm_5-20_rep1_1m_2.fq.gz

tara_135_srf_5-20_rep1_1m_2.fq.gz tara_137_dcm_5-20_rep2_1m_1.fq.gz

tara_135_srf_5-20_rep2_1m_1.fq.gz tara_137_dcm_5-20_rep2_1m_2.fq.gz

tara_135_srf_5-20_rep2_1m_2.fq.gz tara135_1m.zip

tara_136_srf_5-20_rep1_1m_1.fq.gz tara136-137_1m.zip

wget -o genbank-rna-vertebrate_other-k31.tar.gz

wget -o genbank-rna-vertebrate_mammalian-k31.tar.gz

wget -o genbank-rna-invertebrate-k31.tar.gz

wget -o genbank-rna-fungi-k31.tar.gz

wget -o genbank-rna-plant-k31.tar.gz

wget -o genbank-rna-protozoa-k31.tar.gz

wget -o mmetsp-k31-named.tar.gz

#使用乙個for迴圈解壓資料

for infile in *.tar.gz;do tar xf $;done

#dammit資料庫準備

dammit databases --install --busco-group metazoa --quick

這樣準備工作就基本結束了,可以愉快地進行學習了。

空間轉錄組第一講 10x空間轉錄組技術介紹

最近,空間轉錄組學研究炙手可熱。細胞及其在組織樣本中的相對位置之間的關係對於理解疾病病理可能至關重要。空間轉錄組學是一項開創性的技術,它使科學家能夠測量組織樣本中的所有基因活性,並繪製出發生該活性的位置的圖。該技術已經導致了新發現,這些新發現將有助於幫助科學家更好地了解生物過程和疾病。來自10x公司...

學習筆記 巨集定義基礎

在c c 中,巨集定義是由define完成的。define f a,b a b define g a a define h a g a f 1,2 輸出 12 輸出格式為 d 若為 s則報錯 g f 1,2 輸出 f 1,2 輸出格式 s h f 1,2 輸出 12 輸出格式 s 最外層巨集可替換至...

iOS const與巨集學習筆記

我在做專案時,發現很多開發者一般會建立一些名為constant.h public.h的檔案,在這些檔案中定義大量的巨集。有字串常量 函式 方法等。字串常量,多是介面名 介面 在使用nsuserdefaults時的key等等,這樣做的好處是,當介面 或介面名變更時,我們只需要更改constant檔案中...