基於基因組資料的癌症亞型發現聚類研究

2021-08-09 18:21:53 字數 699 閱讀 9643

本文講了什麼問題?

當今全球社會癌症頻發,嚴重威脅著人類的生存質量;不僅癌症的種類越來越多,每一種癌症也衍生出很多亞型,導致我們很難去找到一種**癌症的方法。例如一種針對肺癌的藥物色瑞替尼膠囊,它僅對1%左右的肺癌有很好的效果,因為它僅針對alk基因突變,但實際統計中只有3%-5%的肺癌患者是由alk基因突變引起的,也就是說色瑞替尼膠囊只對肺癌中的乙個亞型有效。如果我們能夠發現乙個癌症中的所有亞型再對亞型進行個性化醫療將具有很重要的意義。

解決方法

隨著基因晶元技術、高通量測序技術的發展以及癌症基因組譜圖計畫(tcga)的完成讓我們有了豐富的癌症基因組資料。再構建乙個基於基因組資料的癌症亞型發現研究的分析框架(基因組資料預處理—>基因組資料重要特徵提取à基因組資料聚類—>聚類結果分析)。其中重要的就是聚類方法的選擇或者說構建;因為生命科學的複雜性決定了純機器學習方法不能完全有效解決癌症亞型識別問題。本文引入基因調控網路分析,將基因調控網路整合到多基因組融合聚類過程中。

一些聚類演算法:

癌症基因組遺傳和表觀遺傳資料整合分析

一 本文講了什麼問題?癌症是由一系列遺傳變異和環境干擾的複雜互動作用引起的,但過去的研究很少關注遺傳變異 基因表達和microrna的變化是怎樣整合形成網路一起作用並最終導致一系列複雜表型例如腦瘤的發生 因為整合各種型別的資料 揭示癌症發生的機制仍然是乙個難題。二 解決問題的方法 1.本文以癌症基因...

基因組資料注釋常用的檔案 Bed檔案和GFF檔案

原文 genomic features通常使用browser extensible data bed 或者 general feature format gff 檔案表示,用ucsc genome browser進行視覺化比較。bed檔案和gff檔案最基本的資訊就是染色體或contig的id或編號,...

人類基因組在三大基因資料庫中的不同版本

比如模式生物擬南芥等有專門的資料庫。在ncbi中,對於不同的拼裝版本,以ncbi build number 進行區分,而相同的版本之間又有微小的區別,以version 表示不同的小版本,在下面的連線中可以看到人類基因組之前的版本,比如build.36.1,ncbi build number 為36,...