论文部分内容阅读
癌症是一类严重威胁人类健康的疾病,其致病机制复杂而且难以治愈,研究表明癌症的发生发展是多种因素综合作用的结果。高通量测序技术的发展,使得多组学数据越来越丰富,如何利用多组学数据获取疾病相关致病信息是当前热门研究领域。作为一种重要的表观遗传机制,DNA(Deoxyribonucleic Acid)甲基化的异常往往会影响基因表达水平,从而诱导癌症的发生。蛋白质作为基因表达的产物,不能单独发挥其生物学作用,它需要与其他分子相互作用才能完成某些复杂的生理功能。蛋白质-蛋白质相互作用PPI(Protein-Protein Interaction)网络是一种在生物活动中起重要作用的生物分子关系网络,尽管大多数蛋白质的序列顺序已知,但是它们的分子功能仍然无法很好解释。针对PPI网络功能模块的研究有助于理解生物机制,随着计算机技术的不断进步,越来越多的研究人员借助于机器学习和数据挖掘相关算法处理PPI网络数据,目的是找出癌症相关的致病基因功能模块并进一步了解其致病机理。本文从全基因组水平上研究了多种癌症的DNA甲基化和基因表达关联模式,并将同时具有差异表达和差异甲基化的基因映射至PPI网络,使用一种重叠功能模块发现方法,获得癌症相关的致病基因功能模块。论文取得的主要创新性成果如下:1.本文针对PPI网络数据存在的系统误差和由于生物实验问题导致的数据不完备等问题,将PPI网络数据和多组学数据进行融合,使得多种信息形成互补,有利于挖掘深层的模式。首先,处理基因表达数据和DNA甲基化数据,使用一种基于?值的差异性分析方法,获得同时存在异常甲基化和异常表达的基因;然后将所得基因融合PPI网络用于后序分析。上述方法使得构建的网络具有一定的先验信息,有效的弥补PPI网络的不完备特性。2.本文提出了一种基于DKNMF(Diffusion Kernel and Non-negative Matrix Factorization)的重叠功能模块发现方法。首先,对本文构建的网络利用扩散核函数计算特征矩阵,该矩阵不仅表示相连节点之间有关联,还能表示出非直接相连节点之间的关联。然后,以该特征矩阵为输入,利用非负矩阵分解方法进行多次迭代计算,依据模块度获得最优划分个数,并进一步得到基因的隶属度矩阵。最后,从模块间重叠度和模块密度出发筛选出连接紧密的功能模块。和其他功能模块发现方法的对比结果表明,本文所提出的方法具有更好的性能。3.本文在多个癌症数据集上进行了实验。对每种癌症的基因表达数据和DNA甲基化数据进行分析,并将其融合到PPI网络,获得与每种癌症相关的功能模块和致病基因。实验分析表明,本文实验所得功能模块内部连接紧密,模块之间连接稀疏,并且部分模块间存在重叠结构。生物学角度的分析表明,对所得功能模块进行富集分析的结果均具有良好的生物解释,且富集产生的信号通路大多与癌症相关。实验结果表明,本文提出的方法不依赖于数据集,具有良好的可扩展性,可以广泛应用于其他领域研究。综上,本文提出的基于DKNMF的重叠功能模块发现方法能够从全基因组层面获得癌症相关基因功能模块,有助于复杂疾病的研究,并为癌症的诊断、治疗及预后提供了理论依据。