论文部分内容阅读
随着基因组测序的完成,生物学研究进入到了后基因组时代,其关键领域之一是对揭示生命活动现象极为重要的蛋白质组学的研究。蛋白质是细胞主要组成成分,其承担着生物体的生命基础以及生物功能。作为蛋白质组学研究的重要方向之一,确定蛋白质的功能对了解生物体运行机能、细胞结构、疾病诊断以及改良作物等具有重要意义。目前,精确的注释蛋白质功能主要通过生物实验方法,然而该方法受实现成本高、耗费时间长以及人为因素等限制。因此,近些年对蛋白质高通量数据使用计算方法来预测大量蛋白质的功能成为一种趋势。随着基因芯片、生物质谱等技术的发展,产生了多种蛋白质高通量数据,包括基因表达、蛋白质序列以及蛋白质相互作用等。不同的数据从各自不同的角度体现蛋白质功能信息,如何有效地利用各数据源信息来整合这些异构蛋白质数据对准确预测蛋白质功能至关重要。蛋白质功能预测是一个多样本多标签问题,可通过已知蛋白质注释信息来预测未注释蛋白质功能。一个特定功能通常不是由某个蛋白质单独实现的,而是由多种蛋白质组成复合物来执行,即蛋白质之间存在相互作用关系。考虑到相互作用网络中同时包含已注释蛋白质和未注释蛋白质,可使用基于半监督学习的相关图理论来预测功能。本文提出了基于多数据源融合的标签传播算法的功能预测方法。针对每种数据源,计算蛋白质之间的相似性值,并选取较大的相似性值构建相互作用网络。该方法使用朴素贝叶斯模型融合多数据源网络,并利用标签传播算法将已注释蛋白质功能经过多轮传递到未注释蛋白质,最后得到所有功能的得分向量。在酵母数据集交叉验证结果表明本文方法具有更高的平均查准率、较低的覆盖度,且明显优于单数据源方法。通过统计分析可知相关功能一般共同注释于一些蛋白质,并且基因本体术语具有注释相关性,即蛋白质注释子术语,则同时也注释其相关父术语。因此,本文采用杰卡德相似系数计算功能之间的注释相关性构建功能相关性网络,将其引入功能预测模型来提高预测精度。将功能相关性网络结合到蛋白质相互作用网络构建双重索引矩阵,并使用随机游走模型预测蛋白质功能。通过在酵母数据集上的实验结果可知该方法具有较强分类性能,且比其他多数据集成方法具有更优性能。