论文部分内容阅读
蛋白质是最主要的生命活动过程的载体,执行着生物体内各种重要功能。对蛋白质功能进行自动标注是生物信息学领域的关键问题,也是后基因时代的核心问题之一。准确地标注蛋白质功能,对疾病机理分析与调控、新药品研发、农作物促产、生物能源开发等研究领域都有着极大的促进作用。然而,蛋白质功能标注信息来源广泛,噪声标注信息不可避免地被引入。这些噪声功能标注会误导蛋白质相关功能的分析与应用,降低后续蛋白质功能的预测精度。已有蛋白质功能预测研究更关注预测功能信息完全未知蛋白质的功能和蛋白质的缺失功能,极少关注蛋白质噪声功能的识别。本文针对蛋白质噪声功能标注识别这一问题进行研究,其主要工作如下:(1)提出了一种基于语义相似度和分类相似度的蛋白质噪声功能识别算法(NoisyGOA)。该方法首先计算蛋白质之间的语义相似度和基因本体(Gene Ontology,GO)功能标签之间的分类相似度,然后计算一个蛋白质的每个功能标注与它语义近邻蛋白质的功能标注最大分类相似度之和,最后选择与这些近邻蛋白质具有最小分类相似度的功能标注为该蛋白质的噪声功能标注。在酵母菌,人类和拟南芥这3个模式生物的模拟噪声数据和真实噪声数据集上都显示了该方法在噪声功能标注识别方面的有效性与优越性。NoisyGOA不仅展示了蛋白质噪声功能的可识别性,而且表明了语义相似度和分类相似度对蛋白质噪声功能识别的作用。(2)由于NoisyGOA在计算语义相似度的过程中易受蛋白质已有噪声功能标注的影响,并且没有功能标注之间的差异性,本文提出另一种基于证据属性加权和稀疏表示的蛋白质噪声功能识别方法(NoGOA)。NoGOA首先用一个蛋白质-功能标签关联矩阵存储蛋白质功能标注信息,利用稀疏表示来计算蛋白质之间的语义相似度,并通过蛋白质的语义近邻对蛋白质的功能标注信息投票来初步识别该蛋白质的噪声功能;其次,NoGOA按不同的证据属性,对过去时期的蛋白质噪声功能标注进行统计和概率预估,在关联矩阵上,根据不同证据属性的噪声概率,对功能标注分别加权,再利用功能标签间层次结构关系向上传播权重;最后通过整合基于语义相似度的初步识别结果和加权的蛋白质-功能关联矩阵的结果识别蛋白质的噪声功能标注。在酵母菌,人类和拟南芥这3个模式生物上的实验结果表明,与现有算法相比,NoGOA能更准确识别蛋白质噪声功能。另外,为了验证NoGOA识别蛋白质噪声功能的效果,我们剔除了NoGOA识别的噪声功能信息,在此基础上进行蛋白质功能预测。实验结果展示,该方法能够提升现有蛋白质功能预测算法的精度。