dds提取工具轉錄組分析工具之 DESeq2

轉錄組分析介紹

轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較，尋找差異基因、標誌基因、差異剪接和新轉錄本，並進行結果視覺化、功能注釋和網路分析等。轉錄組分析流程通常包括資料質控、過濾、序列比對、轉錄本拼接(可選)、表達定量(相關性分析)、差異基因表達分析、kegg分析、go分析、lncrna分析、snp和indels位點分析等等。

轉錄組分析流程

2 deseq2工具介紹

deseq2是轉錄組分析中用於進行差異基因表達分析的工具。基本原理是基於負二項分布模型，適用於有生物學重複的不同條件的樣本之間尋找差異基因。尋找差異基因是轉錄組分析中非常重要的一環。因此，掌握deseq2的使用也是非常重要的。

deseq2的安裝：

首先確認安裝了deseq2的前置r包：

s4vectors

stats4

biocgenerics

parallel

iranges

genomicranges

genomeinfodb

summarizedexperiment

biobase

delayedarray

matrixstats

然後我們進入r語言(3.6版本以上)，執行如下命令:

if (!requirenamespace("biocmanager", quietly = true))

install.packages("biocmanager")

biocmanager::install("deseq2")

3 deseq2的使用

使用deseq2前，我們需要準備兩個檔案：coldata.csv和countmatrix4deseq.csv。其中coldata.csv是樣本條件資訊，第一列是樣本id，第二列是控制條件；countmatrix4deseq.csv是個樣本基因表達計數，列名是樣本id，行名是基因id。coldata.csv和countmatrix4deseq.csv示例分別如下：

有了這兩個檔案，我們就可以進行基因差異表達分析啦！首先，我們載入需要的r包：

suppressmessages(library(deseq2))

suppressmessages(library(dplyr))

suppressmessages(library(pheatmap))

suppressmessages(library(rcolorbrewer))

suppressmessages(library(genefilter))

讀取這兩個檔案，並字元化條件和因子化基因計數：

countdata = read.table(count_table, header=true, sep=",",row.names=1, check.names=false, quote="")

coldata = read.csv(coldata_file, header=t, row.names=null,check.names=false)

index = duplicated(coldata[,1])

coldata = coldata[!index,]

rownames(coldata)

countdata

coldata$condition = as.factor(coldata$condition)

不要忘了檢查兩個檔案中的樣品id是否一致喲：

if (all(coldata[,1] %in% colnames(countdata)) == f) {

print("rownames(coldata) != colnames(countdata)")

print ("pleasecheck.")

stop(call.=false)

接著，我們就可以構建deseq2資料集了：(前排提示，~在r裡面用於構建公式物件，~左邊為因變數，右邊為自變數)

dds = deseqdatasetfrommatrix(countdata=countdata, coldata=coldata,design = ~condition)

在正式分析前，我們需要對資料預篩，把零表達或者低表達的基因刪除。不要小看了這一步預篩哦，樣本中往往存在大量的低表達的基因，這些基因不僅占用記憶體，而且對結果會有影響！

dds = dds[ rowsums(counts(dds)) > 1 ,]

或者：dds = dds[ rowsums(counts(dds)) >=ncol(counts(dds)), ]

在r中，乙個因子的第一級為參考水平(如對照，或未經處理的樣本)，因此我們可以將condition因子關聯如下(basegroup左邊為實驗組，右邊為對照組):

basegroup =ss_vs_dmso

dds$condition

然後我們只需一步就可以進行差異分析啦：

dds

最後，我們可以提取分析的結果，按p值排個序存入檔案results.csv吧~

res

resordered

resordereddf

write.csv(resordereddf, file = "results.csv")

康康膩面有些什麼~

我們可以看到，第一列是基因的id，第二列是基因平均計數水平，第三列是log2倍變化，第四列是標準誤差，第五列是wald統計值，第六列是wald檢驗的p值，第7列是bh修正p值。

好了，結果就是這樣~不過我還可以試試把這些基因視覺化一下，做個熱圖怎麼樣？(選取前50個基因哦，有pdf格式也有png格式)

rld

topvargenes

mat

anno = data.frame(condition = coldata$condition)

anno$condition = as.factor(anno$condition)

rownames(anno) = rownames(coldata)

colors = c(brewer.pal(name="set1", n = 8),brewer.pal(name="paired", n = 12))

colors

names(colors)

colors

pdf(file=paste(path1,"heatmap_top50.pdf",sep="/"),height=10,width=12,onefile=false)

pheatmap(mat,annotation_col = anno,cluster_cols =false,annotation_colors = colors,fontsize_row = 8)

dev.off()

png(file=paste(path1,"heatmap_top50.png",sep="/"),height=10,width=12,units='in',res=300)

pheatmap(mat,annotation_col = anno,cluster_cols =false,annotation_colors = colors,fontsize_row = 8)

dev.off()

康康效果吧~

nice~本期介紹就到這裡啦，最後打個小廣告~

歡迎需要測序分析的老師來找我們喲~

武漢博越致和生物科技****

您身邊的多組學科研助手！

dds提取工具轉錄組分析工具之 DESeq2

ARCGIS 疊加提取分析工具

文字提取分析和修改工具

scrapy爬蟲之xpath資料提取工具的使用

dds提取工具 轉錄組分析工具之 DESeq2

ARCGIS 疊加 提取分析工具

文字提取 分析和修改工具

scrapy爬蟲之xpath資料提取工具的使用

相關推薦

dds提取工具轉錄組分析工具之 DESeq2

ARCGIS 疊加提取分析工具

文字提取分析和修改工具