论文部分内容阅读
MicroRNA(miRNA)是一类非编码小RNA分子,在基因表达过程中起重要调控作用。miRNA异常能直接或间接的引起所调控的靶基因的表达水平变化,进而导致相应的生物过程或调控通路失效。此外,miRNA及其靶基因与多种疾病的发生发展有关。识别miRNA靶基因不仅可以更好地理解miRNA功能和调控机制,还有助于疾病诊断和治疗。随着高通量技术的广泛应用,积累了大量的组学数据,为基于网络水平研究生物分子间的复杂关系提供了契机。因此,如何将多种类型的生物数据融合起来识别潜在的miRNA-target关系是目前生物信息学研究的热点。本文提出两种基于异构网络的方法进行miRNA靶基因关系预测。为有效利用经实验验证的miRNA调控关系,提出基于网络的算法RMLM和RMLMSe,利用元路径(meta-path)识别 miRNA-target 关系。RMLM 和 RMLMSe可同时识别单个或多种疾病中多个miRNA的靶基因。RMLM中,首先利用关联性测量(Relatedness Measure,RM)计算基于不同元路径节点间的相似性;然后利用逻辑回归(logistic regression)和最大似然(MLE)计算不同元路径的权重。RMLMSe在RMLM的基础上,融合了序列信息进一步提高算法性能。最后在四种实验数据集上对算法有效性进行验证。五折交叉验证的结果表明RMLM和RMLMSe相较于对比算法有更高的AUC值,且融合序列信息有助于提高miRNA-target预测性能;路径富集分析的结果也表明了 RMLM和RMLMSe的有效性和合理性。针对RMLM在小输出上性能较差的问题,提出一种基于双层网络的重启随机游走算法GLRWR进行miRNA靶基因关系预测。GLRWR首先利用经实验验证的miRNA-gene关联矩阵计算miRNA对、gene对之间的高斯核相似性,然后将功能相似性矩阵和高斯核相似性矩阵融合起来得到更准确的相似性矩阵;考虑到gene-gene矩阵的稀疏性,利用KATZ算法重新计算gene-gene矩阵;接着,利用基于双层网络的重启随机游走进行miRNA-target关系预测;最后,通过与其它算法在四种不同的数据集上的对比分析证实了算法GLRWR的有效性。