生存分析初探 怎麼看懂生存資料?

2021-10-09 19:53:42 字數 2551 閱讀 8598

今天我們開始乙個新的主題——生存分析。什麼叫生存分析?為什麼要採用生存分析呢?

前面我們一起學習的多重線性回歸和logistic回歸都主要是用來分析某個結果的影響因素,比如教育程度對收入的影響,或者,糖尿病發生與否的影響因素,這些方法主要是在靜態地分析某乙個特定的結果。

可是,倘若我們不僅僅關心結果的發生情況(發病vs未發病),同時我們也想看看發生該結果所經歷的時間長短,此時,簡單的線性或logistic回歸就難以滿足這個需求,而生存分析可以來回答這類似的問題。

生存資料

多重線性回歸,一般是指有多個自變數x,只有乙個因變數y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變數x的數量,在只有乙個x時,就稱簡單線性回歸。

一般來講,在醫學科研中,生存分析較多應用在腫瘤病人的**方案評價方面。

這是因為對於癌症患者,我們往往更加關注的是」生存時間「,比如經常聽到的:5年存活率、3年存活率... 而某種**方法的價值也主要表現在延長患者的存活時間。

比如在一項針對肺癌患者的研究中,研究者可能會關注下面三個問題:

1)肺癌患者接受**後的生存狀況如何?

2)哪種**的效果最好?

3)這些患者在接受**後的生存狀況與哪些因素有關?

我們可以看到,這三個問題的答案不可能簡單地通過最終的**結果來衡量:**vs未**。

原因很簡單也很殘酷,癌症不像感冒那樣,不是看治好還是沒治好,讓患者存活更多時間、存活地更體面成為人們追求的目標。

好了,回到我們的主題,如何掌握生存分析,並且靈活地運用呢?

第一步是對下面幾個基本的概念有乙個清晰的認識。

生存資料:前面我們說到了,在某些研究中,除了要關注某結局事件的發生與否,還會考慮發生該結局所經歷的時間長短,這種兼有時間和結局兩種屬性的資料,就被稱作生存資料。

這種將事件結局的出現與否和達到終點所經歷的時間結合起來的統計方法就被稱作生存分析。

由此,在進行生存分析時對」起點」、」終點「、以及」所經歷的時間「(生存時間)都有十分明確的定義。專業術語一般稱為:

觀察起點(或稱起點事件)、觀察終點(終點事件)和時間間隔。

生存時間的確定

多重線性回歸,一般是指有多個自變數x,只有乙個因變數y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變數x的數量,在只有乙個x時,就稱簡單線性回歸。

案例:某研究蒐集了2023年1月1日至2023年12月31日間肺癌患者的資料,以了解患者接受**後的生存情況及其可能的影響因素。

前面談到生存分析很關鍵的一點是確定生存時間,而確定生存時間最重要的是確定好觀察起點和終點。

在本案例中,2023年1月1日是觀察起點;2023年12月31日是觀察終點,問題是並非所有人都是在起點進入觀察,也並非在終點就正好發生結局(即死亡)。因此,我們需要做好相應的記錄。

對於起點,觀察物件可以在起點同時進入觀察,也可以在不同時間點進入觀察,如下a、b兩種形式:

a:所有觀察物件在同一時間點接受觀察;

b:觀察物件在不同時間點接受觀察。

上圖中,帶點的空心圓圈表示出現終點事件,帶加號的圓圈表示尚未出現終點事件。

對於終點的判斷,要稍微複雜一下。

本案例的具體資料如下:

我們先不細看上面的資料,想這樣乙個問題:從開始觀察(2013/1/1)到觀察終止(2015/12/31),所有的觀察物件會有哪些情況發生呢?

1)觀察期內,能夠正常的隨訪,但在觀察終點前因肺癌死亡;

2)觀察期內,正常隨訪一段時間就斷了聯絡,後面的情況一概不清楚;

3)觀察期內,能夠正常隨訪,但在終點前因其他原因死亡的;

4)從開始觀察到終止觀察,一直存活的物件。

大家想想,是不是所有的觀察物件都是這四種情況?是的

符合上面第一種情況的資料,我們一般稱作完全資料(complete data),如上表中編號為1和3的患者,生存時間分別為23個月和13個月。

完全資料提供的是準確的生存時間。除了」完全資料「,其他的所有情況(即上面的2-4情況)所獲得的資料均稱作」刪失資料「(******ed data),有時也被稱作」截尾資料「。

上表中的2號患者,屬於」失訪「導致的」刪失「,患者可能變更****、未繼續就診或拒絕訪問等原因,無法繼續隨訪,未能觀察到終點事件。

另外兩種」刪失「情況對應上面第3)和第4)種情況:

比如**中的編號4的患者,雖然死亡,但是死於車禍,這種」刪失「稱作」退出「;

5號患者在觀察終點時仍然存活,這種情況稱作」終止「。

一般來講,我們會在刪失資料的」生存時間「資料右上角標記」+「,表示真實的生存時間可能長於觀察到的時間,但是未知。

對於生存時間單位的選擇並沒有特別的限制,可以是年、月、日,或小時等,一般呈現非正態分佈,所以在進行生存分析時需進行特定的調整,對此,我們後續再談。

怎麼看懂Alt Ctrl Delete的效能頁面?

從任務管理器中我們可以看到計算機效能的動態概念,例如cpu和各種記憶體的使用情況。cpu使用情況 表明處理器工作時間百分比的圖表,該計數器是處理器活動的主要指示器,檢視該圖表可以知道當前使用的處理時間是多少。cpu使用記錄 顯示處理器的使用程式隨時間的變化情況的圖表,圖表中顯示的取樣情況取決於 檢視...

怎麼看懂乙個MFC程式?

mfc封裝了windowsapi系統功能介面 包括視窗訊息 對話方塊,控制項 網路socket,圖形介面輸出,多執行緒應用,同步物件 作業系統磁碟檔案管理等 以及應用到了c 中的類封裝技術 繼承,派生 多型 因此要看懂mfc程式,僅僅有c 語言基礎是遠遠不夠的,初學者要看懂mfc程式,需要 1 掌握...

gsea富集分析結果怎麼看 豆豆學習GSEA

第521天 大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好 這裡有豆豆和花花的學習歷程,從新手到高階,生信路上有你有我!豆豆寫於2020.1.22 23 自從上次寫過豆豆在um的第一天就開始了適應過程,到現在也適應差不...