資料庫numeric TCGA資料庫 生存分析

2021-10-14 17:33:42 字數 2981 閱讀 3455

也介紹了下游的差異分析:

一文就會tcga資料庫基因表達差異分析

也介紹了:基因表達譜熱圖繪製

fit ~ 分組, data=資料框)
我們這裡就結合基因的表達量,來進行分析。

首先載入我們的資料。

options(stringsasfactors = f)#載入表達資料load("f:/tcga/htseq-fpkm/rdata/data/tcga-coad-exp.rdata")#載入臨床資料load("k:/tcga/clinicaldata/tidyallcancerdata/tcga-coad -clindata.rdata")
處理方式可以參考文章:

之前處理後的資料進行簡單的處理,其實就是去掉正常組織的樣本,再把列名變成3個字段。因為原來表達矩陣中病人的barcode長,"tcga-aa-3662-11a-01r-1723-07",而臨床資料中的只有前3段。具體關於barcode這個在前面有介紹,也可以參考文章tcgabiolinks包介紹,裡面有詳細介紹。

##提取腫瘤樣本的表達矩陣exp "allgene***p"]][[tumexp exp[,transomedata[[barcode "(.*?)-(.*?)-(.*?)-.*",colnames(tumexp) ##

同樣我們也要處理一下臨床資料,我們之前處理的臨床資料是這樣的:

我們這裡也需要簡單處理一下。

#提取臨床資料library(dplyr)clin clin "--")clin "sample",clin[1,3]clin$follow as.numeric(clin$follow)/
其實,就是只要生存時間和生存狀態這2個資料,再刪除缺失值。follow除了365,單位就是年啦。

然後我們將表達矩陣與臨床資料融合,因為不是每個病人的資料都是一一對應的,簡單說,就是病人有表達資料,但他的臨床資料就不全,我們也刪除了缺失值的病人的臨床資料,所以我們只需要具有臨床資料又有表達資料的病人的資料。也就是取乙個交集。

##融合資料interbarcode gene "llgl2"geneexp geneexp % as.data.frame() %>% data.matrix() %>% as.data.frame() geneexp$sample mergdata by =
這裡的gene我只寫了乙個,所以融合後是下面這樣的資料。你也可以把所有基因都融合進去,這裡是案例,就演示了乙個。

接下來就是新增乙個分組資訊。

mergdata$group  median(mergdata[,gene]),"high","low")
我們以表達值的中位數為分界線,高於中位值為高表達,低於或等於中位值為低表達。也可以用均值。

得到上面這樣的資料後,我們就可以按照剛剛的公式進行生存分析了:

######################### 生存分析library(survival)library(survminer)fit
繪圖的話就用ggsurvplot函式。

ggsurvplot(fit,data = mergdata)
好像不是很美觀,我們可以調整一下引數,比如y軸下部分很空,我們可以調整一下y軸座標。

這樣看著就好很多啦。我們在進行其他引數的調整。

如果我們要一次批量分析很多基因的高低表達與生存的關係,寫乙個迴圈,批量繪圖了,也可以參考文章graphpad prism繪製生存曲線和r語言批量繪製生存曲線。

儘管本文是介紹基因表達量的生存分析,但其他的也是一樣,就看你怎麼分組,比如我們前面介紹snp的資料處理後,能否做某基因突變與野生型的生存分析呢?其實都是一樣的道理,其他的也是一樣。照葫蘆畫瓢而已,大家自己去試試。

乙個r指令碼解決某類功能基因(比如m6a甲基化)臨床預後模型分析流程

腫瘤免疫細胞浸潤與臨床相關性分析

tcga | 文獻閱讀 | r語言 | 資料庫 | 理論知識

MySQL資料庫基礎 MySQL資料庫與資料表操作

資料表操作 3.修改表名 4.更改表的自增的值 5.修改表引擎 6.刪除表 資料表的操作 資料庫操作 1.資料庫的建立 鏈結mysql資料庫後,進入demo後可以運算元據 1.建立庫 create database if not exists demo default charset utf8 1....

Android Sqlite 資料庫修復及資料匯出

今天上午在弄乙個資料庫修復的問題,就是sqlite的資料庫打不開,但是資料庫中還是有資料的,那麼應該如何修復這個資料庫呢?我的做法是 首先,需要匯出資料庫的指令碼。我是通過sqlite3.exe這個命令列工具實現的具體的操作如圖所示 那麼這個最重要的一步 生成sql指令碼 就完成了。然後,通過sql...

手動cache TimesTen資料庫中資料

環境 timesten 安裝在一台sun os機器上 oracle 資料主庫在另一台linux機器上。資料存放在oracle主庫中,tt的資料是以readonly的方式從oracle主庫上cache過來的。其中,cache group的引數為 readonly,autorefresh,increme...