论文部分内容阅读
疾病表型与基因型关联是现代生物医学研究的核心内容之一。识别疾病表型的致病基因,研究这些基因在疾病发生发展过程中的作用机制是生物医学基础研究的主要目标。传统的致病基因识别方法(如连锁映射和全基因组关联分析)主要从实验角度出发,但是整个生物实验和数据分析的过程极为耗时耗力。随着人类全基因组计划的完成和高通量测序技术的成熟,目前已经积累了海量的生物实验数据。基于表型和基因型相关的数据,采用计算方法预测致病基因被证明是一种有效的方法。近年来相关研究者陆续提出了多种性能显著的疾病表型基因预测方法,但鉴于疾病分子机制的复杂性,仍然存在诸多问题与挑战:(1)基于网络传播的预测模型易受到网络中核心节点的影响,导致模型偏向于识别出网络中的核心基因;(2)对于基于嵌入表示的预测方法,充分利用已有的多种异构关系来构建疾病和基因的上下文信息仍是一个难题,同时探索不同的异构网络对预测性能的影响也至关重要;(3)目前大多数的预测方法会受到相互作用组学数据的不完整性和表型基因型关联的研究偏向性的影响,导致很难识别出新颖且可靠的候选基因;(4)由于医学关系数据的稀疏性和复杂性,设计基于多视图特征的深度神经网络模型预测致病基因仍是一个难题;(5)在症状基因预测研究中,目前缺乏一个可靠的症状-基因关系集。因此本文提出了三种新颖的疾病基因预测方法,并将网络表示模型应用到症状基因预测任务上,获得了不错的预测性能。本文的主要研究内容如下:(1)针对在基于嵌入表示的预测方法中融合表型和基因型相关的异构关系来构建疾病和基因的上下文信息较难的问题,我们提出了一种面向疾病基因预测的异构网络嵌入表示框架。基于此框架,我们提出两种特定的疾病基因预测算法,即基于低维向量相似的预测算法LVRSim和融合网络表示和网络传播的算法RW-RDGN。基于相似度的疾病重叠分析和疾病-基因关系恢复实验结果表明疾病和基因的低维向量特征能够很好的融合异构网络的结构信息。我们提出的方法RW-RDGN能够有效利用低维特征相似性来重建疾病-基因异构网络并使用随机游走算法来预测候选基因。实验结果表明相比于基于网络传播的预测方法,RW-RDGN算法在疾病基因预测上获得了更好的性能表现。(2)针对基于网络传播的预测方法易受到蛋白相互作用关系数据的不完整性和当前表型-基因型关系研究偏向性的影响问题,我们提出一种融合功能模块和网络近邻相关性的疾病基因预测方法Map Gene。Map Gene能够有效的利用非负矩阵分解融合表型-基因型关系和蛋白相互作用关系数据的相关关系来获得与疾病和基因相关的功能模块,利用蛋白网络中最短路径长度来衡量疾病和基因的网络近邻相关性。实验结果表明Map Gene方法在疾病基因预测任务上的性能表现明显好于基线方法。对候选基因的分析结果表明Map Gene方法能够有效的缓解识别出蛋白网络中核心基因的倾向性,同时,功能模块信息能够有效的帮助我们理解Map Gene方法识别候选基因的潜在机制,并获得可靠的候选基因。(3)针对医学关系数据的稀疏性和复杂性导致的难以将深度神经网络模型应用到疾病基因预测任务上的问题,我们提出了一种融合疾病和基因多视图特征的深度神经网络模型Deep GN来预测致病基因。Deep GN模型能够有效的整合疾病和基因的多视图信息,并利用构建的正负样本集作为监督信息来优化神经网络参数和疾病与基因的深度特征。实验结果表明相对于基线方法,Deep GN在预测性能上获得了大幅的提升。另外,我们对预测到的候选基因做了深入的功能同质性和相互作用关系分析,结果表明疾病的候选基因和已知基因有较高的功能同质性和紧密的相互作用关系。(4)针对症状分子机理研究中的缺乏可靠的症状-基因关系数据问题,我们构建了一个高质量的症状-基因关系集和一个联结中西医症状的知识库Sym Map。同时,我们将提出的异构网络嵌入表示框架应用到了症状基因预测任务上,提出了一个症状相关的异构网络嵌入表示方法LSGER来预测症状-基因关系。实验结果表明LSGER方法相比于基线方法在预测性能上获得了大幅提升。我们构建的症状-基因关系数据集和严格筛选后的症状-候选基因关系集有利于推动症状基因预测方法和症状分子机理的研究。