论文部分内容阅读
后基因组时代中,随着高通量实验技术的快速发展,大量的蛋白质数据被收集起来。然而,蛋白质数据与功能标注数据之间的差距却在不断变大。即使如酵母菌这样得到广泛研究的物种,其仍有近四分之一的蛋白质功能无法确定。因此,从计算角度设计出高效的蛋白质功能的自动标注方法成为生物信息学领域的重要挑战之一。此外,由高通量实验方法或计算预测方法获得的蛋白质功能标注数据包含了较高比例的假阳性和假阴性噪声,严重影响了与蛋白质功能标注相关的生物、医疗的应用效果。在本论文中,依据蛋白质相互作用网络的拓扑结构、流形学习方法和图理论知识,我们提出了三种有效的计算方法用来解决蛋白质功能的自动预测以及功能标注数据中的噪声问题。全文的主要工作概括如下:(1)针对蛋白质功能的自动标注问题,提出了一种新的整合流形学习和多标签学习的蛋白质功能预测框架。首先,利用边介数对蛋白质相互作用网络进行加权处理。然后,利用等度规特征映射(ISOMAP)算法将该加权网络嵌入到低维表示空间中,从而获得蛋白质数据的低维特征表示;最后,将蛋白质功能预测转化成经典地多标签学习问题,并且能够采用多种多标签学习方法进行蛋白质功能的预测与评估工作。实验结果表明,提出的方法能够取得了更加合理的蛋白质低维特征表示,并且相比于其他对比方法取得了更加准确的预测精度。(2)提出一种鲁棒的融合功能相关性的多标签线性回归方法来预测蛋白质的功能。首先,采用基于流形学习的ISOMAP算法将边介数加权的蛋白质相互作用网络嵌入到低维子空间中。然后,根据蛋白质低维数据的分布特点,将线性回归理论扩展到多标签情境中,通过余弦相似性计算蛋白质功能标签之间的相似性,并将其作为规则项加入到多标签线性回归模型的目标函数中。最后,评估了提出的算法在酵母菌数据库上的有效性。实验结果表明,提出的方法相比于其他现有的方法实现了更加令人满意的预测性能。(3)为了解决蛋白质功能标注数据中包含大量噪声的问题,提出了一种基于图规则化l1-范数的主成分分析法(Gl1PCA)进行蛋白质功能优化。首先,该方法通过蛋白质相互作用网络与功能相似性矩阵分别构建了一个蛋白质图与一个功能图。然后,将蛋白质图与功能图经过拉普拉斯变化后以规则项的形式被整合到了l1-范数的主成分分析法(l1PCA)的目标函数之中。最后,给出了该优化模型的一种基于增广拉格朗日乘子法(ALM)的快速解法,并利用理论证明与优化实验验证了提出的算法的正确性。实验结果表明,提出的算法能够有效的优化蛋白质的功能标注数据。