论文部分内容阅读
近年来,Lnc RNA(长非编码RNA)已被证明与许多严重种危害人类健康的严重疾病的发生和发展密切相关。然而,由于传统生物实验具有实验的高成本和高耗时等原因,大多数Lnc RNA与疾病的关联尚未被发现。因此,建立有效且合理的计算模型来预测Lnc RNA和疾病之间的潜在关联是非常紧迫和必要的。在生物信息学中,利用有效的预测模型来揭示疾病与Lnc RNA之间的潜在关联已经成为近些年的一个研究热点,并被很多研究人员所高度关注。本文先介绍了研究方向的背景知识和国内外研究现状,之后提出了两种基于随机游走的模型来预测Lnc RNA-疾病的潜在关联关系,具体内容如下:(1)首先,我们从数据库中得到了已知的Lnc RNA-疾病关联数据并进行预处理。(2)随后,我们提出了一种新的基于局部随机游走的预测模型LRWHLDA用于推断人类与疾病之间的潜在联系。在LRWHLDA中,我们首先通过整合疾病-疾病,Lnc RNA-Lnc RNA与已知的Lnc RNA-疾病这三种关联建立了一个新的异构网络,该异构网络包含了两类节点和三类链接,该异构网络的设置使得LRWHLDA可以在缺乏已知的Lnc RNA-疾病关联的情况下仍然能够运行。在此基础上,我们设计了一种改进的局部随机游走方法来预测新的Lnc RNA-疾病关联,该方法可以在获得较高的预测准确度的同时仅伴随着较低的时间复杂度。这使得我们的预测模型LRWHLDA在非常稠密和复杂的网络中仍然可以保证高效。通过模拟实验证明,我们可以知道LRWHLDA有潜力成为潜在的Lnc RNA-疾病关联预测领域中新兴方法的代表。(2)最后,我们提出了一种预测模型称为TCSRWRLD,这是一种基于重启型随机游走的算法并用于预测潜在的Lnc RNA-疾病关联。在TCSRWRLD中,首先将Lnc RNA的集成相似性和疾病的集成相似性结合起来,构建一个异构的Lnc RNA-疾病网络。然后,对于新构建的异构Lnc RNA-疾病网络中的每个Lnc RNA节点或者疾病节点,将建立一个包含100个疾病/Lnc RNA节点的TCS(目标收敛集)节点集,每个节点的TCS中的100个节点与其自身的平均网络距离最小。最后,我们在异构Lnc RNA-疾病网络上实现了一种改进的重启型随机游走来推断潜在的Lnc RNA-疾病关联。该模型的主要贡献在于引入了TCS的概念,使得TCSRWRLD在原有的基础上有效地加快了算法的收敛速度,其原因是游走节点可以只关注TCS中的节点对应的概率向量达到稳定了就停止随机游走过程而不用关注全部节点的情况。比较结果和病例研究表明,TCSRWRLD能够在潜在的Lnc RNA-疾病关联预测中获得良好的性能,这意味着TCSRWRLD在未来生物信息学研究中可能是一个很好的补充。这篇文章在章节规划的第五部分加入了针对上文提到的两种模型的归纳与总结,而且,在提出总结的基础上,还加入了此项研究在下一个研究阶段的计划。