基于图卷积网络的癌症生存期预测方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huiyuanai852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症作为人类疾病历史上色彩最浓重的一笔,其一直是人类生命和健康的最主要威胁之一。癌症的高死亡率在很大程度上是由于癌症的复杂性及其临床结果的显著差异所致。因此,提高癌症生存预测的准确性具有重要意义,并成为癌症研究的主要领域之一。目前已有许多癌症生存预测的计算模型被提出,但大多只利用单种基因组学数据或者临床数据生成预测模型,目前还未出现有效融合基因多组学数据和临床数据的方法,从而全面地考虑癌症并对其生存期进行预测。为了有效的整合基因多组学数据(包括基因表达、拷贝数改变、基因甲基化、外显子表达)和临床数据,并将其用于癌症的生存期预测研究中,本文提出了一种融合基因多组学与临床数据的基于图卷积的癌症生存期预测方法GCGCN(Integrating Genomic Data and Clinical Data by Graph Convolutional Network),该方法首先利用相似网络融合算法(SNF)对基因多组学数据和临床数据进行整合,生成样本相似度矩阵,同时利用最小冗余最大相关算法(mRMR)对癌症样本的基因多组学数据和临床数据进行特征选择,生成样本特征矩阵,最后利用两个矩阵通过图卷积网络(GCN)进行半监督训练,得到可用于癌症预后生存期预测的模型。GCGCN模型的性能指标表明,基因多组学数据和临床数据在准确预测癌症患者生存期中都起着关键作用。同时与现有的癌症生存期预测方法进行了比较,结果表明融合基因多组学与临床数据的基于图卷积网络的癌症生存期预测方法GCGCN,其模型性能具有显著的有效性和优越性。此外,我们改进GCGCN模型,得到所有特征的重要性指数并取topN特征,通过分析这些特征进一步验证该方法的准确性和可靠性。本研究的所有结果表明,GCGCN在癌症生存期预测方面所具有的有效性和优越性。
其他文献
早在上世纪90年代,上海就规划要兴建世界级高水准游乐园,迪士尼乐园一直是首选目标,当时的几任上海市领导也曾去过美国迪士尼乐园考察。在香港正式签约建造迪士尼乐园之前,时任上
通货膨胀在经济理论和经济实践中都是一个重要的问题,原因是通货膨胀过高会给社会造成较高的成本,本文分析认为不仅未预期的通货膨胀而且预期通货膨胀也带来一定的成本,通货
公有民办二级学院是我国高等教育体制改革的模式之一,目前,在人才培养质量定位上和公办高校以及纯民办高校存在中突,需要根据新形势对人才的要求,在与公办高校、纯民办高校比
YPT实验是基于IYPT(国际青年物理学家锦标赛)赛题,让学生自主探究的一类物理实验,其最大的特点在于探究性强、开放程度高、更具真实性.YPT实验对学生科学探究能力的培养有着
为了开发一种新型碱性蚀刻液以代替传统的氨类蚀刻液,该蚀刻液的组成特点是以铜一乙醇胺络合物、氯离子和碱性pH缓冲液作为主要成分。分别采用静态吊片蚀刻法和动态喷淋蚀刻研
委婉语是语言交际中的"润滑剂";合作原则与礼貌原则是言语交际中交际双方应该遵守的最基本的原则。虽然委婉语的使用违反了"合作原则"的准则却遵循了"礼貌原则",因此委婉语的
目的探讨腹腔镜胆囊切除术(LC)中经剑突下或脐孔取胆对切口感染的影响,以降低LC医源性感染。方法选取2013年1月-2015年2月1 046例择期行LC治疗的胆囊结石患者,根据取胆途径分为
引言之后 ,本文依以下标题对香茅 ( Cymbogon Species)作了较全面的回顾。 ( 1)植物学 ,包括马丁香( Palmarosa) ,香茅 ( L omongras) ,亚香茅 ( Citionella) ;( 2 )育种方法
该文依据教育学相关理论,以现代教育技术为依托,尝试将网络资源与英语报刊阅读教学策略整合,从教学过程着手整合了多维信息处理、立体信息呈现、整体语篇解析、全息动态反馈
李商隐的《无题》诗,是他别具一格的独特创造。由于其诗意婉转、扑朔迷离,再加上诗人自己曾说“楚雨含情皆有托”,因而历来研究者对其创作旨意看法不一。文章拟就诗中的情感品质