基于鲁棒图神经网络与多组学数据整合的癌症亚型分类研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:shifter_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精准识别癌症患者的分子亚型对癌症的个体化治疗、靶向药物研发和预后分析具有重要意义。大规模多组学数据和基于数据驱动的方法能够促进对癌症分子分型的理解和预测。现有大多数基于机器学习的方法通常依赖于单一组学数据,而未能整合多组学数据为分子分型提供更全面的信息。一些基于神经网络的方法,考虑了分子分型的复杂非线性,但忽略了基因特征筛选和样本之间的关系。图神经网络能够利用样本相似性图中样本之间的信息传递和聚合来学习样本表示,但未能考虑样本相似性图的构建是有噪声的。针对上述关于癌症分子分型任务现有的缺陷,本文提出了一种新的基于HSIC Lasso的鲁棒图卷积神经网络框架(R-HGCN)。基于该框架,本文整合基因表达、单核苷酸变异(SNV)和拷贝数变异(CNV)数据将其应用在乳腺癌(BRCA)和胃癌(STAD)亚型识别任务上。首先应用HSIC Lasso选择分子亚型相关的转录组特征,利用这些特征构建低噪的样本-样本相似性网络。然后,将选择的基因表达、单核苷酸变异和拷贝数变异数据作为输入,学习样本的多视图表示,从更全面的视角,深刻的理解生物过程和复杂疾病。在此基础上,R-HGCN通过GNNGUARD分配权重,基于重要性评估和分层图存储进一步加强新特征与图之间的关联。R-HGCN赋予相似节点更高的权重,目的是在图卷积神经网络(GCN)中有效消息传递,提升模型鲁棒性。最终,建立一个鲁棒的图卷积神经网络模型,通过聚合子图来获得样本的新表示,并预测样本的亚型类别。在乳腺癌和胃癌数据集上的实验结果表明,R-HGCN的亚型分类性能优于现有的其他方法。本文还通过三个消融实验评估特征选择、单核苷酸变异数据和拷贝数变异数据对实验结果的影响。消融实验结果表明以上三个组件对于癌症亚型分类都是必要的。此外,进一步识别出每一种癌症亚型的生物标志物并进行富集分析。识别的亚型特异性生物标志物与当前的临床共识高度一致,有望帮助精准诊断和靶向药物研发。
其他文献
道路交通系统随着5G技术和智能汽车技术的不断发展呈现智能化、网联化和协同化的发展趋势,海量交通信息的获取与共享使智能驾驶逐渐成为可能。在实现全部网联车辆自动驾驶之前,可以预见在未来一段时期内势必存在人工驾驶车辆、非网联自动驾驶车辆、网联人工驾驶车辆和网联自动驾驶车辆组成的智能网联混行驾驶环境。智能网联混行驾驶环境下,“人-车-路-环境”道路交通信息量呈现爆炸式增长,由于驾驶人的认知能力所限,不能在
学位
随着电子信息技术的飞速发展,电子设备运行速度越来越快。运行速度的增加会导致热量的累积,反过来会对设备的性能造成影响。因此,对器件内部的散热提出了更高的要求。鉴此,本文选用端乙烯基聚二甲基硅氧烷为基体,鳞片石墨和微米银为导热填料,制备了一系列导热垫片,得到了综合性能优异的热界面材料,并探究了不同因素对导热垫片导热性能的影响。主要研究内容包括:(1)以天然鳞片石墨作为导热填料,硅烷偶联剂作为改性剂,端
学位
随着汽车行业的技术变革与革新,智能化的自动驾驶和网联化的驾驶环境成为了汽车与交通行业发展的风向标。学术界和企业技术领域均认为自动驾驶和智能网联的技术融合成果-智能网联自动驾驶汽车(也称智能网联汽车)与智慧交通系统相结合的大趋势,可以较大程度减缓严重困扰人类的道路交通安全问题。其中,由于现有交通事故中由超车引发的事故比率较高,相关科学研究主要关注准备超车或正在进行超车驾驶行为或并道行为的车辆,很少有
学位
驾驶疲劳是造成道路交通事故的主要原因之一,与其他交通事故致因相比,驾驶疲劳更容易导致死亡或重伤,其具有个体表征多样化和疲劳特征隐匿性强的特点,研究驾驶人在途疲劳状态辨识对改善道路交通安全具有重大意义。由于不同驾驶人间存在个体差异性,导致驾驶疲劳共性特征不明确,现有疲劳辨识算法无法满足疲劳辨识的高前瞻性要求,如何正确处理驾驶人疲劳特征的个体差异,已成为目前驾驶疲劳研究中的关键问题。因此,本文立足于该
学位
随着我国社会经济的不断发展,汽车保有量不断增加,随之带来的燃油消耗、道路拥堵和交通安全等问题也日趋严重。商用车作为目前货物运输的主要途径,截至2021年1月我国商用车货运规模占总货运规模的74.4%,同时载货商用车燃油消耗占总燃油消耗量比例超过50%,且仍有上升趋势。因此如何提高商用车的行驶安全性及燃油经济性具有重要意义。随着通信技术、控制方法和传感等技术的不断发展,先进的商用车编队控制方法被证明
学位
随着不可再生的化学燃料能源的不断消耗,寻找绿色、可持续与经济的新能源就成了当代能源化学的重要课题。氢气正是一种优异的洁净能源。而电解水制取氢气(HER)是一种简便的电能存储方法。电解水制氢需要催化剂来促进电解水反应的进行。目前一些稀有金属基催化剂表现出良好的电催化性能,但是由于成本高限制了其广泛使用。于是人们试图开发便宜的过渡金属基电产氢催化剂来替代贵金属基催化剂。铜、铁、钴、镍等过渡金属基催化剂
学位
多取代吡咯和噻唑类化合物具有抗病毒、抗炎、抗肿瘤活性,本身可作为药物使用,亦作为药物合成的中间体,在药物、农药领域有广泛的用途。迄今为止,尽管这两类化合物的合成研究已有很多文献报道,但电化学方法合成这两类化合物的研究工作非常有限,发展绿色有效的电化学合成这两类化合物仍然是非常意义的。鉴于此,本论文着眼于研究电化学合成方法,合成这两类重要化合物。(1)以β-二羰基化合物、醛和胺底物合成多取代吡咯化合
学位
车辆安全驾驶一直是交通领域重要的研究课题,自动驾驶车辆由于减少驾驶员的参与,可以避免大部分由人为因素造成的交通事故,提高驾驶安全和驾驶效率。在驾驶行为研究中,车辆跟驰行为和换道行为是最常见也是最基本的两种驾驶方式,有调查显示由于不合理换道引起的事故占比较高,而智能网联自动驾驶车辆换道行为研究有助于避免该问题的产生。结合国家科技部项目“车车耦合机理与协同安全方法”(项目编号:2018YFB16005
学位
由于人们对气候问题越来越关注,迫切希望能够减少化石燃料的使用,以降低二氧化碳排放量,多年来,人类一直在寻找更清洁、可持续的燃料。在众多可再生能源中,氢能以其高热值、无污染一直备受关注,尤其是现在,氢能将迎来前所未有的发展空间。考虑到氢化酶能够在温和的条件下高效地完成氢气生成和氧化,为此我们选题为:镍、铜、锌、铁、钯配合物的合成与催化氢气生成及氧化性能的研究。本文主要研究内容如下:1、设计并合成了6
学位
符号网络是大数据时代的一种数据表现形式,由节点、节点间正负链接组成。符号网络中的任务在现实生活中有非常广泛的应用,如链接预测、社区发现、节点分类等。但符号网络的节点和链接需要高维向量表示,导致模型计算复杂的问题。表示学习是一种非常有效的学习节点嵌入方法,通过保留网络中拓扑结构、顶点内容和其它辅助信息,将网络顶点嵌入到低维向量空间中。所以用表示学习方法可以将符号网络任务中所需的信息提取出来,用低维向
学位