论文部分内容阅读
越来越多的研究表明,长非编码RNA(long non-coding RNA,lncRNA)在许多生物过程中具有重要的功能。而这些长非编码RNA的变异或功能失调会导致一些复杂疾病的发生。目前关于长非编码RNA-疾病关联的研究和数据均较为匮乏,因此通过生物信息学方法预测潜在的长非编码RNA-疾病关联关系,是目前该领域研究的热点和趋势,这对于致病机理的探索以及疾病诊断、治疗、预后和预防都具有重要的意义。目前关于长非编码RNA-疾病关联的预测主要有基于计算模型的和基于复杂网络传播的方法。基于计算模型的方法或通过整合基因-疾病关联数据与长非编码RNA表达谱数据并利用超几何分布做富集分析,或引入高斯核函数计算相似性并构造拉普拉斯算子求最优解,这两种方法均存在模型复杂,参数个数多,复杂度高等问题。基于复杂网络传播的方法利用资源分配算法来计算长非编码RNA之间的相似性,再通过网络传播算法将相似性信息传播到整个网络中,这种方法需要计算矩阵的n次方或利用迭代算法做近似,计算复杂度高。局部结构性链路预测具有建模简单、复杂度低、准确性高等优点,并且满足相似疾病趋向由功能相同或相似的长非编码RNA引起的生物学假设,受其启发,本文将链路预测的思想引入到长非编码RNA-疾病关联预测中。但链路预测是基于依赖共同邻居的“三角形闭合”模型,并不能直接用在异质的二部网络上。针对该问题,本文提出了二部图上不同属性集的节点之间“共同邻居”的概念,并在此基础上建立二部图“四边形闭合”模型。利用“四边形闭合”模型改进了9个链路预测相似性指标使其适用于二部网络并将其运用到长非编码RNA-疾病关联预测中。在长非编码RNA-疾病关联二部网络上做留一交叉验证,AUC最高的BPA达到0.9377,比之前方法最高的0.7881提高了近19%。此外,在BPA指标中,有14条边在重构预测所有的19000多条预测边排名中均排名第一,有81条边在重构预测中排名所有预测边的前1%。对神经胶质瘤和肺癌的案例分析也显示了本文算法的强大预测能力。上述结果表明本文方法在长非编码RNA-疾病关联预测上具有很高的准确性,是对现有方法的很好提高和补充。此外,本文提供了一个新的思路去探索长非编码RNA-疾病关联预测问题,即基于局部结构性链路预测的角度,这对于简化问题模型和降低计算复杂度都有很大启发。