论文部分内容阅读
疾病影响着人类的正常工作及生活,复杂疾病,以癌症为代表,更是严重威胁着人类的生命安全。对疾病生物标记的研究有助于揭开潜在疾病的发病机制,并引导个性化的治疗。因此,疾病生物标记的研究受到越来越多的关注,成为了生物信息学研究中一个极其重要的分支。近些年来,随着高通量测序技术的发展,各种不同的生物数据大量涌现,疾病生物标记的研究进入了一个新阶段。已知疾病基因,作为已经在临床上被证实跟疾病相关的基因,可以作为一种先验知识来指导研究。然而目前的大多数研究方法,只是把已知疾病基因作为对研究结果的验证数据,而没有作为先验知识去引导疾病生物标记的识别,本文研究中引入了这一数据作为先验知识。另外,大量生物数据的积累也推动了对各种计算方法的研究。在生物假说“同一疾病的蛋白质互相之间交互多”的基础上,研究者们通过在网络模型中计算各基因与已知疾病基因的距离,来预测疾病生物标记。这些距离度量方法包括基于最短路径、基于随机游走、扩散核等。扩散核能根据疾病网络的全局拓扑特性度量节点之间的距离,具有比较好的效果。本文研究中采用了扩散核(diffusion kernel)思想。本文提出了一种以已知疾病基因集合引导的疾病网络的构建方法,并从构建的疾病网络中预测疾病相关基因。本文具体的研究思路如下:首先,从三个公共数据库中收集针对某种癌症的已知疾病基因,对每种癌症得到一个疾病基因集合。针对本文研究的六种癌症(肺癌,前列腺癌,乳腺癌,膀胱癌,大肠直肠癌,子宫内膜癌),共获得了六个基因集合。然后,采用扩散核思想在每一个疾病基因集合基础上构建一个疾病分子网络。扩散核在本文中被用来度量基因之间的相似性,旨在找出与已知疾病基因相似性高的基因,用于构建网络。最后,采用马尔科夫聚类算法(MCL)在疾病网络上进行聚类,并设计了一种按聚类模块为单位的新颖的得分算法对疾病网络中除已知疾病基因以外的基因打分,从中筛选癌症相关基因并进行了一系列验证。另外,为了说明以疾病基因集合为疾病网络的初始节点集合的合理性,我们在PPI的最大连通图上比较了疾病基因与非疾病基因的拓扑特性差异。实验结果表明,本文的研究方法能比较有效地构建疾病分子网络,预测与特定癌症相关程度高的基因。从与经典的带重启的随机游走的预测方法的结果对比来看,本文方法预测的致病基因在已知疾病基因数据库中展现了更显著的富集性,对癌症样本和正常样本的分类效果也更好。本文的算法将从某种程度上揭示癌症的发病机理,并为深入了解癌症的机制提供支持。