基于流形学习的蛋白质功能预测与优化

来源 :安徽大学 | 被引量 : 0次 | 上传用户：jimlancer

【摘要】

：

后基因组时代中,随着高通量实验技术的快速发展,大量的蛋白质数据被收集起来。然而,蛋白质数据与功能标注数据之间的差距却在不断变大。即使如酵母菌这样得到广泛研究的物种,

【作者】

：

梁华东

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2017年期

【关键词】

：

蛋白质相互作用网络流形学习多标签学习图规则化功能优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

后基因组时代中,随着高通量实验技术的快速发展,大量的蛋白质数据被收集起来。然而,蛋白质数据与功能标注数据之间的差距却在不断变大。即使如酵母菌这样得到广泛研究的物种,其仍有近四分之一的蛋白质功能无法确定。因此,从计算角度设计出高效的蛋白质功能的自动标注方法成为生物信息学领域的重要挑战之一。此外,由高通量实验方法或计算预测方法获得的蛋白质功能标注数据包含了较高比例的假阳性和假阴性噪声,严重影响了与蛋白质功能标注相关的生物、医疗的应用效果。在本论文中,依据蛋白质相互作用网络的拓扑结构、流形学习方法和图理论知识,我们提出了三种有效的计算方法用来解决蛋白质功能的自动预测以及功能标注数据中的噪声问题。全文的主要工作概括如下:(1)针对蛋白质功能的自动标注问题,提出了一种新的整合流形学习和多标签学习的蛋白质功能预测框架。首先,利用边介数对蛋白质相互作用网络进行加权处理。然后,利用等度规特征映射(ISOMAP)算法将该加权网络嵌入到低维表示空间中,从而获得蛋白质数据的低维特征表示;最后,将蛋白质功能预测转化成经典地多标签学习问题,并且能够采用多种多标签学习方法进行蛋白质功能的预测与评估工作。实验结果表明,提出的方法能够取得了更加合理的蛋白质低维特征表示,并且相比于其他对比方法取得了更加准确的预测精度。(2)提出一种鲁棒的融合功能相关性的多标签线性回归方法来预测蛋白质的功能。首先,采用基于流形学习的ISOMAP算法将边介数加权的蛋白质相互作用网络嵌入到低维子空间中。然后,根据蛋白质低维数据的分布特点,将线性回归理论扩展到多标签情境中,通过余弦相似性计算蛋白质功能标签之间的相似性,并将其作为规则项加入到多标签线性回归模型的目标函数中。最后,评估了提出的算法在酵母菌数据库上的有效性。实验结果表明,提出的方法相比于其他现有的方法实现了更加令人满意的预测性能。(3)为了解决蛋白质功能标注数据中包含大量噪声的问题,提出了一种基于图规则化l1-范数的主成分分析法(Gl1PCA)进行蛋白质功能优化。首先,该方法通过蛋白质相互作用网络与功能相似性矩阵分别构建了一个蛋白质图与一个功能图。然后,将蛋白质图与功能图经过拉普拉斯变化后以规则项的形式被整合到了l1-范数的主成分分析法(l1PCA)的目标函数之中。最后,给出了该优化模型的一种基于增广拉格朗日乘子法(ALM)的快速解法,并利用理论证明与优化实验验证了提出的算法的正确性。实验结果表明,提出的算法能够有效的优化蛋白质的功能标注数据。

其他文献

基于DICOM增强型信息对象挂片显示技术的研究与实现

自信息技术的提出至今，计算机技术已经取得了长足的发展，并由于信息技术的实用性和便捷性，现已应用到社会各行各业。上世纪70年代，X线计算机体层设备（X线CT）问世，医学成像技术发生了

学位

DICOM标准增强型信息对象信息提取挂片协议

露天开采境界优化及其汽车运输辅助设计系统研究与开发

为满足国民经济快速发展的需要，如果矿床的赋存条件对矿石的开采方式没有限制，那么应首先采用露天开采。地下开采比露天开采更难于应用大型生产设备，因而在扩大企业的生产能力、

学位

露天开采汽车运输辅助设计系统KD树空间散乱点组织算法

数字作品交易的访问控制机制研究

随着移动互联网的飞速发展，iPhone、iPad等手持终端的多元化，并通过手指触摸等新型多模态的应用方式在不同移动终端上在线交互数字作品，数字作品的移动阅读模式得到了广泛应用，在

学位

数字作品交易访问控制行为环境状态

采矿硐室及堑沟式底部结构辅助设计系统研究与开发

硐室是矿山辅助开拓工程的重要组成部分。硐室服务年限一般比较长，对工程质量的要求也会比较高。硐室工程质量的好坏将直接影响到矿山生产的后续环节。采场底部结构在很大程度

学位

采矿硐室堑沟式底部结构辅助CAD技术蓝光地理信息系统函数库

数据挖掘在医院信息系统中的研究与应用

医院要实现数字化管理是一个漫长、复杂的过程，发达国家医院信息系统的开发应用已经有三十多年的历史，至今已进入成熟时期。而国内在近20多年时间里，从第一阶段的单机收费管理逐

学位

数据挖掘医院信息系统Apriori算法语义相似度计算方法

基于多目标进化算法的任务驱动模式挖掘研究

多目标优化问题是一类常见于各种科研以及工程应用中的问题,与经典单目标最优化问题不同,多目标问题中涉及到的各个目标相互之间存在着一定的冲突关系。目前在多目标领域存在

学位

多目标优化进化计算数据挖掘任务驱动模式推荐代理模型

社会网络的(α,k)-匿名方法研究

随着网络技术快速发展，大量在线社会网络的建立和使用，越来越多的人参加到社会网络中分享和交流信息，而在这种交互过程中，就会产生大量的数据。这些数据中包含有一部分是用户不想

学位

社会网络隐私保护(αk)-匿名方法

复杂网络理论在WSNs中的应用研究

无线传感器网络（WirelessSensorNetworks，WSNs）是一种综合了传感器技术、嵌入式技术、分布式处理技术和无线通信技术的新一代网络，有着广泛的应用前景。路由技术是无线传感器网络

学位

路由协议无线传感器网络复杂网络小世界理论

使用访问控制模型的委托代理能力扩展研究

随着Internet和数字化技术的快速发展，网上数字内容和信息的安全问题已成为人们所关注的重点。传统的信息安全技术包括传统的访问控制技术、信任管理、数字版权管理(DRM)三个

学位

访问控制模型委托代理能力扩展信息安全

移动跨平台GIS开发包的设计与实现

近几年来,随着智能移动设备在生活中的普及,移动GIS应用得到快速发展,需求也越来越广泛。在移动操作系统种类繁多且更新换代速度非常快的背景下,以往以单个应用作为整体的设

学位

跨平台GIS开发包空间索引地图表现路径规划算法

基于流形学习的蛋白质功能预测与优化

与本文相关的学术论文