论文部分内容阅读
蛋白质是生命活动的主要物质基础,参与并执行生物体内的各种重要功能。整合海量生物数据中的蛋白质特征和功能信息并对蛋白质进行自动且准确的功能标注,可以帮助人类更好地认识和理解生命过程,对疾病分析、药物研发和生物能源开发等领域的发展都有极大的推动作用。近年来,基于机器学习技术的蛋白质功能预测研究受到广泛的关注,获得了较高的精度。但是,这些方法通常假定已有的蛋白质功能标注信息是完整的,并把蛋白质功能预测问题建模为一般的多标签学习问题,忽略了由于实验条件限制和生物学研究热点等因素造成的功能标注不完整性和不平衡性,以及功能标签之间的层次结构关系在功能预测中的重要作用,预测精度依然有限。多种异构蛋白质数据源可以转化为蛋白质之间的功能关联网络克服异构性,一些方法通过整合这些关联网络提高了功能预测精度。然而,这类方法在整合的效率和效果等方面均存在困难。充足的正负样例有助于提高分类器的区分能力进而提升预测精度,由于负样例的缺失,大部分蛋白质功能预测方法仅能利用蛋白质已知的正样例,或启发式地选定负样例,极少关注对负样例的识别,也限制了预测精度。本文针对蛋白质功能预测研究中存在的上述问题,以如何结合基因本体层次结构为出发点,以提高蛋白质功能预测精度为目标,以机器模型构建与求解为基本手段,围绕蛋白质缺失功能预测,负样例预测和面向多源数据集成的蛋白质功能预测分别展开深入研究,提出一些计算方法。本文的主要贡献包括:1、针对蛋白质功能标注普遍存在缺失的问题,提出一种基于有向混合图的蛋白质功能预测方法(dHG)。dHG针对蛋白质功能标签的不完整性,标签之间层次结构关系和蛋白质缺失标注的规律,设计了一种由蛋白质互作网和基因本体有向无环图构成的有向混合图,并在该混合图上设计有向重启动随机游走预测蛋白质功能。分析表明,dHG不仅能更好地预测蛋白质缺失功能,还能预测功能完全未知蛋白质的功能,效率也较以往方法更高。为更进一步利用有向混合图的结构差异性,提出一种基于异步随机游走的蛋白质功能预测方法(NewGOA)。NewGOA不仅考虑了有向混合图中蛋白质互作网和基因本体子图之间的结构差异性,还考虑了蛋白质互作网中的噪声互作。NewGOA继承了dHG的所有优点,实验表明NewGOA获得的预测精度和效率比dHG和其他相关方法更高,这些混合图上的随机游走策略还可以推广应用到其他关联预测问题中。2、针对蛋白质的负样例极少,限制了分类器的区分性和精度等问题,首先提出一种基于基因本体结构的蛋白质负样例预测方法(NegGOA)。NegGOA分别基于功能层次结构关联和功能共同出现的经验条件概率对蛋白质的缺失功能进行预估,再根据这两类预估筛选蛋白质的负样例功能。分析表明,NegGOA受蛋白质功能标注的不完整性影响较小,它预测的负样例不仅错误率更低,且还能显著提升蛋白质功能预测的精度。为进一步整合利用蛋白质特征信息和已知的少量负样例,提出一种基于正负样例的蛋白质功能预测方法(ProPN)。ProPN利用已知的蛋白质-功能正负关联信息、蛋白质互作信息和功能标签关联构建符号混合图,再通过符号混合图上的信息传播算法预测蛋白质功能。分析表明,ProPN不仅能较好地预测蛋白质负样例,还能预测蛋白质未知的正样例。考虑到蛋白质功能标签空间巨大,蛋白质互作网中存在较多的噪声互作和缺失互作等现实困难,本文进一步提出一种基于降维的蛋白质不相关功能预测方法(IFDR)。IFDR通过在蛋白质互作网邻接矩阵和蛋白质-功能标签关联矩阵上分别进行随机游走,挖掘蛋白质之间的内在关系和预估蛋白质的缺失功能标签,再将上述2个矩阵投影降维为低维实数矩阵,再利用半监督回归预测负样例。在多个模式的生物蛋白质数据集上的实验表明,IFDR比已有相关算法能够更准确地预测负样例,对网络和标签空间的降维均可以提高负样例预测精度。3、在基于多源数据集成整合预测蛋白质功能方面,提出一种基于多网络语义集成的蛋白质功能预测方法(SimNet)。SimNet首先利用加权的重合相似性度量构建蛋白质之间的语义网络,再将多个蛋白质关联网络向该语义网络对准,进而优化各个网络的权重系数并整合这些网络成一个复合网络,再在复合网络上基于局部全局一致性学习方法预测蛋白质功能。分析表明,SimNet能相对以往的相关方法更高效准确地整合多源数据预测蛋白质功能。为了区分性地整合多个网络,并处理较大的功能标签集合,提出一种基于多网络数据协同矩阵分解的蛋白质功能预测方法(ProCMF)。ProCMF基于非负矩阵分解将蛋白质功能标注矩阵分解为两个低秩矩阵,并基于这两个低秩矩阵分别定义基于网络结构和标签关联的平滑性正则项约束指导矩阵协同分解,再对不同网络设置权重,并把权重优化和功能预测统一到一个目标方程中。在酵母菌,人类和老鼠蛋白质数据集上的实验证明ProCMF较现有相关算法能获得更好的预测结果,并能高效地处理大量存在关联的功能标签,区分性地整合多个网络,且对输入参数鲁棒。