论文部分内容阅读
MicroRNAs(miRNAs)是一种大小约21—23个碱基的单链小分子RNA,是由具有发夹结构的约70-90个碱基大小的单链RNA前体经过Dicer酶加工后生成。随着人们对mi RNA的认知逐步深入,许多研究表明,mi RNA在生物过程中有着重要的作用,而mi RNA自身的表达和对基因的调控作用可能会影响各种疾病。因此,准确检测miRNAs与疾病之间的关联关系成为近年来的一个新的研究热点。早期研究方法主要基于生物实验,获得的结果准确度较高,也从根本上验证了mi RNA与疾病存在关联关系。然而实验方法存在成本昂贵,耗时较长,且成功率不高等缺点,研究者需要更有效的方法来解决该问题。而随着已知关联关系的增加,利用已知的关联关系而使用计算生物学方式来预测miRNAs与疾病的关联关系似乎成为了科研工作者的突破口。一方面,它的结果可以剔除大量的“错误答案”,节约宝贵的实验成本;另一方面,好的生物计算方法甚至可以替代生物实验,用极高的准确率完成miRNAs与疾病的关联关系预测。本文将当前的用于miRNAs-疾病关联关系的计算方法分为两大类:(1)基于网络拓扑结构的方法,(2)基于机器学习的方法。基于网络拓扑结构的方法通过建立miRNAs和疾病网络中节点之间的关联关系来进一步预测可能存在的“边”,即新的miRNAs-疾病关联关系,但该类方法的实验结果依存于高可信度的生物网络模型,且无法应用到新的miRNAs或新的疾病;基于机器学习的方法解决了新miRNAs与新疾病的预测问题,但同时这类方法需要解决特征提取和负例缺失两大问题。除此之外,在这两类计算方法中发现,模型对miRNAs相似度的计算大量地使用了MISIM数据库,而MISIM数据库是由miRNAs与疾病关联关系导出,这会导致在做交叉验证时,产生一些不必要的逻辑悖论。基于上述方法存在的问题,本文了提出了一种基于序列的miRNAs相似度建模方法及应用该方法的计算模型,基于PU-learning的计算模型AIWC(Adjustable Iterative Weighted Classifier)和LMFMDA(Least Squares Optimization Matrix Factorization method for mi RNA-Disease Association)。AIWC基于“被标记的正标签的集合是从真正的总体集合中随机选择”假设,使用PUlearning相关算法对miRNAs和疾病的关联预测进行建模,着重关注已知样本的召回,优化整个模型的关联关系预测结果。LMFMDA应用矩阵分解算法来解决该问题,将miRNAs和疾病分别投影到隐变量空间,拟合现有的miRNAs-疾病关联关系矩阵,并通过miRNAs相似度矩阵与疾病相似度矩阵进行约束,得到miRNAs和疾病在隐变量空间的表示,以此来预测新的miRNAs-疾病关联关系。与常规做法不同的是,LMFMDA引入了辅助的miRNAs和疾病变量,来保证在优化时能够收敛到最优解。这种方法对新的miRNAs和疾病具有很好的效果,其AUC值可达0.8511,对现有的高效方法表现出明显的优越性。