基于机器学习方法的保留时间预测和母离子检测算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wangqianzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着质谱技术的发展,高分辨率、高精度的质谱数据的获取大大提升了蛋白质鉴定和定量的效果。使用“鸟枪法”和数据库搜索方法鉴定蛋白质时,可以利用肽段在色谱中的保留时间预测结果提高鉴定结果的灵敏度或可靠性,同时,肽段母离子的检测直接影响鉴定或定量的结果,非常基础且重要。  对于第一个问题,现有的保留时间预测模型大部分用于处理常规肽段,且只能支持特定色谱条件下的保留时间预测,当肽段上发生修饰或者色谱条件发生变化时,使用模型的原有参数会造成预测不准。现在能处理带有修饰的肽段的模型和能适应不同色谱条件的模型较少。  本文设计了基于支持向量回归方法的保留时间预测模型,核心思想是根据肽段的理化性质提取多维特征并输入支持向量回归模型,实现预测。本文的预测模型可以应用于不同色谱条件下发生修饰的肽段。在一组公开数据集上,与目前已知具有最好性能的软件Elude2.0对比,本文的预测模型和Elude2.0分别使预测保留时间和实际保留时间的判定系数达到0.950到0.960之间和0.944到0.958之间,并使95%的肽段的预测保留时间和实验保留时间之间的差值分别落在色谱实验总时间的8.0%到11.2%和8.1%到13.8%之间。本文预测模型的速度约为Elude2.0的32到47倍。  对于第二个问题,目前的母离子检测算法中支持共洗脱母离子检测的算法较少,且没有专门处理有同位素标记的数据的算法。与常规数据相比,有同位素标记(如13C标记)的数据中母离子的同位素峰簇形状发生改变,单同位素峰在同位素峰簇中的相对位置也随之发生变化,现有软件没有做出相应调整,就会造成同位素峰的误判。  本文在现有的母离子检测软件pParse2.0的基础上,增加了对多种标记数据的处理模块,优化并完善了前人研究pParse2.0时建立的三种标注集,改进了基于多元自适应回归样条训练模型的方法,开发了功能更加全面的母离子检测软件pParse2.5。本文建立的三种标注集可以分别评测母离子检测算法对无质量偏移的母离子、发生质量偏移的母离子和共洗脱母离子的召回率。与pParse2.0对比,pParse2.5使15N标记数据中母离子在各标注集上的召回率提高了4%到80%,使13C标记数据中母离子在各标注集上的召回率提高了10到56倍。对于无标记数据,pParse2.5使共洗脱母离子的召回率提高了约13%到28%。最后,由于pParse2.5中采用了母离子单同位素峰的信息,而当母离子质量超过8k Da时,单同位素峰在一级谱图上的信号弱到可以忽略,算法不再适用。对于这种情况,本文采用了母离子最高峰的信息,使用数据库统计的方法计算多标记数据的理论同位素峰簇分布,建立最高峰与理论同位素峰簇分布、单同位素峰与最高峰之间的间隔的索引等,开发了母离子检测软件pParse3.0,未来有望促成肽段母离子和蛋白质母离子检测问题的统一处理。
其他文献
随着计算机支持的协同工作技术的成熟和移动终端设备的不断发展,越来越多的人从传统的工作方式向移动办公的方式转变,人们不再局限于固定地点办公,移动CSCW(ComputerSupportedCoo
近年来,随着互联网上图像的急剧增长,基于内容的图像检索(Content BasedImage Retrieval)一直是多媒体内容检索领域的研究热点。按其使用的特征类型划分,它已经历从传统全局特征
随着部队信息化程度的提高,基层连队管理工作已逐步纳入了连队信息化建设的重要议程,基层连队武器装备信息化管理直接关系着基层连队信息化建设的进程。而现有的基层连队武器装
随着物联网的飞速发展,物端系统中主控芯片的选择成了大家所关注的热点,人们既希望主控芯片具有较高的性能,能够处理复杂的数据运算,又希望其功耗能够尽量降低。因物端设备需时刻
图像在人们的日常生活和信息交流中有着十分重要的意义。特别是随着互联网设备如笔记本、手机和平板电脑等越来越普及,图像的数量呈现爆炸式增长,与此同时图像的内容也越来越多
近年来,随着网络应用的普及和手机拍照设备的发展,人们对数字媒体图像的使用需求越来越迫切,其中图像搜索是迫切的需求之一。在视觉检索领域,基于词汇包的倒排索引的研究越来越多
随着通信技术的高速发展,视频通讯逐渐成为备受关注的通讯方式,人们对通讯过程中视频的清晰度以及流畅度也相应地有了更高的要求,这使得高清化、智能化成为了视频通讯技术的
树木的真实感建模与绘制不仅在于对树木整体形态的模拟,还在于对树木表面细节的模拟。树皮细节纹理的高真实感模拟对提高树木的真实感具有重要作用。由于大多数树木建模,特别
随着多媒体技术和互联网技术的发展,网络已经普遍地应用在教育教学中。答疑是传统教育和远程教育中的一个重要环节,答疑系统是网络教学系统的重要组成部分。目前,网络教学系
近年来,64位微处理器在个人电脑及服务器领域得到了日益广泛的应用。64位微处理器能同时处理更宽的数据,通常还能提供超过32位的内存寻址能力,这符合应用程序逐渐增长的对内