基于多数据源融合的蛋白质功能预测方法研究

被引量 : 0次 | 上传用户:guofeng7303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组测序的完成,生物学研究进入到了后基因组时代,其关键领域之一是对揭示生命活动现象极为重要的蛋白质组学的研究。蛋白质是细胞主要组成成分,其承担着生物体的生命基础以及生物功能。作为蛋白质组学研究的重要方向之一,确定蛋白质的功能对了解生物体运行机能、细胞结构、疾病诊断以及改良作物等具有重要意义。目前,精确的注释蛋白质功能主要通过生物实验方法,然而该方法受实现成本高、耗费时间长以及人为因素等限制。因此,近些年对蛋白质高通量数据使用计算方法来预测大量蛋白质的功能成为一种趋势。随着基因芯片、生物质谱等技术的发展,产生了多种蛋白质高通量数据,包括基因表达、蛋白质序列以及蛋白质相互作用等。不同的数据从各自不同的角度体现蛋白质功能信息,如何有效地利用各数据源信息来整合这些异构蛋白质数据对准确预测蛋白质功能至关重要。蛋白质功能预测是一个多样本多标签问题,可通过已知蛋白质注释信息来预测未注释蛋白质功能。一个特定功能通常不是由某个蛋白质单独实现的,而是由多种蛋白质组成复合物来执行,即蛋白质之间存在相互作用关系。考虑到相互作用网络中同时包含已注释蛋白质和未注释蛋白质,可使用基于半监督学习的相关图理论来预测功能。本文提出了基于多数据源融合的标签传播算法的功能预测方法。针对每种数据源,计算蛋白质之间的相似性值,并选取较大的相似性值构建相互作用网络。该方法使用朴素贝叶斯模型融合多数据源网络,并利用标签传播算法将已注释蛋白质功能经过多轮传递到未注释蛋白质,最后得到所有功能的得分向量。在酵母数据集交叉验证结果表明本文方法具有更高的平均查准率、较低的覆盖度,且明显优于单数据源方法。通过统计分析可知相关功能一般共同注释于一些蛋白质,并且基因本体术语具有注释相关性,即蛋白质注释子术语,则同时也注释其相关父术语。因此,本文采用杰卡德相似系数计算功能之间的注释相关性构建功能相关性网络,将其引入功能预测模型来提高预测精度。将功能相关性网络结合到蛋白质相互作用网络构建双重索引矩阵,并使用随机游走模型预测蛋白质功能。通过在酵母数据集上的实验结果可知该方法具有较强分类性能,且比其他多数据集成方法具有更优性能。
其他文献
性能评价的目的是描述和分析系统的动态及与时间有关的行为。尽早将功能、时序行为检验与设计相结合,可以在很大程度上消除不必要的错误,提高设计质量。评价模型常采用变迁模型
随着计算机和网络技术的快速发展和广泛应用,网络安全问题越来越显得突出。无论是传统的静态网络安全技术(如防病毒、防火墙等),还是动态网络安全技术(如入侵检测系统、入侵防
游戏软件产业作为一个新兴的高技术产业,已经成为同影视、音乐等并驾齐驱的全球最重要的娱乐产业之一。游戏软件对高质量的3D动画图形运算和显示具有很高的要求,同时由于游戏的
在众多身份认证方法中,生物特征认证技术由于其利用了人体本身所固有的特征,具有更高的安全性、可靠性和有效性,因此越来越受到人们的重视。以人脸为特征的识别技术是一种最容易
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量可供使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。 进行数据挖掘的方法很多,粗集方法便是其
足球视频影响着人们的日常生活,人们对足球视频的关注更多地体现在对其中进球,射门,罚牌等精彩事件的关注。然而用人工的方法从大量的比赛视频数据中查找人们感兴趣的精彩事件是
当今互联网高速发展,人类社会迈入网络信息爆炸时代,这带来了网络上农业知识信息的激增,给农业从业者带来了农业信息查找的便利。知识意味着财富,农业从业者从这些农业信息中
随着信息技术与计算机技术的快速发展,消费者对企业的服务质量也提出了更高的要求。作为现代化的高等学校,更加注重生源市场及服务质量。因此,在高校招生办公室设立招生电话语音
随着互联网的急速膨胀,万维网上信息的增长远远超过人们的应付能力。难以定位、难以获取成为阻碍互联网信息利用的巨大障碍。搜索引擎作为一种方便易用的互联网检索工具致力
本文对基于ARM9的嵌入式Linux驱动程序开发与应用进行了研究。文章分析了ARM处理器和嵌入式Linux系统的显著特点和广泛应用,介绍了嵌入式Linux系统的开发过程包括交叉编译环境