GEO資料探勘構建基因表達矩陣

2021-10-01 05:55:44 字數 2610 閱讀 1022

1、geo資料庫介紹

geo全稱gene expression omnibus,由美國國立生物技術資訊中心ncbi建立並維護的基因表達資料庫。建立於2023年,收錄世界各國研究機構提交的高通量基因表達資料。

geo上有四類資料gsm, gse, gds, gpl

1.gsm是單個樣本的實驗資料

2.gds是人工整理好的關於某個話題的gsm的集合,乙個gds中的gsm的平台是一樣的

3.gse是乙個實驗專案中的多個晶元實驗,可能使用多個平台

4.gpl是晶元的平台,如affymetrix, aglent等

4、合併表達矩陣

就是在gpl中找出基因列和id列。融合到gse中,替換掉原來的探針列。**如下:

setwd("d:/one/bio/geo_database")

> sys.setlocale('lc_all','c')

> #讀取gpl檔案

> gpl_table = read.table('d:/one/bio/geo_database/gpl21185-21174.txt',sep = "\t",

+ comment.char = "#", stringsasfactors = f,

+ header = t, fill = true, quote = "")

> #讀取gse檔案

> gse4100

+ comment.char = "!", stringsasfactors = f,header = t, fill=true)#43931

>

> #表達矩陣製作

> id_sybmol = gpl_table[,c(1,11)] #gpl對應id列

> colnames(id_sybmol)[2]="symbol" #更改名稱為symbol,主要是為了對其求平均函式

>

> #合併id與基因列

> exp = merge(id_sybmol,gse4100,by.x = "id",by.y = "id_ref",all=t) #45782個

> exp = exp[,-1]

> view(exp)

**執行後結果如下:

5、資料整理

將這四個檔案開啟就會發現,很多基因是重複的,而且有些是一對多的探針。

a.所謂一對多,就是乙個探針檔案對應n個基因,這種探針直接去除。

b.當存在基因重複,求平均的方式去除過多的行。

c.空值等,都會去除。

d.資料歸一化,目的是為了後去的去批次差異

> #資料過濾

> exp = exp[exp$symbol != "",] #45782

> exp = na.omit(exp) #45782

>

> #去除

> exp1 = data.frame(exp[-grep("/",exp$"symbol"),]) #去一對多,grep是包含的意思,-就是不包含

>

> #求平均值

> meanfun

+ return(x1)

+ }> exp2

> # 檢視資料

> par(cex = 0.7)

> n.sample=ncol(exp2[,-1])

> if(n.sample>40) par(cex = 0.5)

> cols

> boxplot(exp2[,-1], col = cols,main="expression value",las=2)

>

> write.table(exp2,"exp_original.txt",row.names = f,quote = f,sep="\t")

>

> row.names(exp2) = exp2[,1]

> exp2 = log(exp2[,-1])

>

> par(cex = 0.7)

> n.sample=ncol(exp2)

> if(n.sample>40) par(cex = 0.5)

> cols

> boxplot(exp2, col = cols,main="expression value",las=2)

>

> symbol = row.names(exp2)

> exp_test = cbind(symbol,exp2)

>

> write.table(exp_test,"exp.txt",row.names = f,quote = f,sep="\t")

執行結果

表達矩陣就完成了,一共58212個。

GEO資料探勘(2) GEO資料庫

geo全稱 gene expression omnibus geo資料庫起先只是為表達晶元資料準備的,後期納入了各種ngs組學資料,文章裡面會給出資料位址,gse id號,由此我們就可以進入geo資料庫,進而了解它!如gse84498 一篇文章可以有乙個或者多個gse資料集,乙個gse裡面可以有乙個...

基因表達分析 距離矩陣

1 對許多基因而言,在乙個功能家族中,基因的序列相似性是很弱的,人們不能僅僅依靠序列來可靠判斷這個新測序的基因的功能。2 表達矩陣的元素ii,j表示基因i在實驗條件j時的表達水平。整個表達矩陣的第i行稱為基因i的表達模式。可在表達矩陣中尋找具有相似表達模式的成對基因,將這些基因標記為2個相似行。如果...

資料探勘比賽,構建矩陣時的腦殘行為

scipy.sparse.hstack blocks,format none,dtype none source stack sparse matrices horizontally column wise parameters blockssequence of sparse matrices w...