基于统计学习的肽鉴定方法研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：hiketty

【摘要】

：

蛋白质鉴定是蛋白质组学研究的基础问题之一。串联质谱技术和数据库搜索已成为自底向上蛋白质鉴定策略的常规技术手段。为了鉴定蛋白质序列，首先需要鉴定由蛋白质酶切产生的肽

【作者】

：

王海鹏

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2010年期

【关键词】

：

计算蛋白质组学统计学习肽序列鉴定串联质谱数据库搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质鉴定是蛋白质组学研究的基础问题之一。串联质谱技术和数据库搜索已成为自底向上蛋白质鉴定策略的常规技术手段。为了鉴定蛋白质序列，首先需要鉴定由蛋白质酶切产生的肽序列。可以说，肽鉴定模块是蛋白质鉴定软件的核心，而将肽序列与串联质谱关联起来的肽打分函数，则成为肽鉴定的关键。本文研究的重点就在于如何利用统计学习技术来设计肽打分函数以及提高肽打分函数的性能。　　为了衡量各种肽谱匹配特征的重要性，找到最具代表性的肽谱匹配品质描述指标，从而基于这些特征构建肽打分函数，本文首先提出了一种基于支持向量机-逐步特征排除算法(SVM-RFE)的肽谱匹配特征重要性排序方法。在已有的针对肽鉴定的工作中，肽谱匹配特征主要用于肽鉴定结果的后续评价和验证，对于它们的重要性以及能否直接用于肽打分函数，并没有相关工作进行考查。本文提出的方法利用线性排序支持向量机的权重向量，对肽谱匹配特征的重要性进行排序。同时通过一次去掉一个的特征排除过程，能够观察到某个特征对线性肽打分函数的贡献程度。实验表明，对于肽打分函数来说，实验谱峰强度匹配比例IntenRatio、理论碎片离子匹配比例IonRatio和匹配碎片离子的连续互补性CnscCmpl是最为重要的三个肽谱匹配特征，这三个特征足以将训练集中99％以上的正确肽序列排在候选肽列表的首位。　　基于肽谱匹配特征重要性排序的结果，本文提出了一个利用实验谱峰强度匹配比例IntenRatio和理论碎片离子匹配比例IonRatio构造的肽打分函数i2Score。在肽打分函数中尝试了上述两个特征的乘积和加和两种运算形式。通过实验比较，发现乘积形式具有更高的灵敏度和正误匹配区分度。在三个不同类型数据集上的对比实验表明，i2Score的肽鉴定性能要显著优于同样基于相似性度量的SEQUEST肽打分函数。在1%的假发现率条件下，在谱图水平，i2Score能多鉴定出17%到78%，而在非冗余肽水平，i2Score能多鉴定出13%到45%。同时，还与Mascot以及本文课题组先前提出的KSDP肽打分函数进行了比较，i2Score的性能也表现出一定的优势。　　反相高效液相色谱和串联质谱联用是蛋白质鉴定中常用的分析技术。反相色谱用来分离肽混合样品，不同肽序列所具有的不同理化性质，会导致其在色谱柱中的保留时间不同。肽反相保留时间是可以根据其氨基酸序列进行预测的。已有许多工作致力于预测反相色谱条件下的肽保留时间，并取得了较好的预测效果。实际保留时间和预测保留时间的差异可以用来度量肽序列的可靠性。虽然目前已存在许多种肽打分方法，但是融入保留时间信息的肽打分函数仍是不可用的。为了进一步提高上述打分函数的肽鉴定性能，本文将肽的实际保留时间和预测保留时间的差值Diff融入一个新的肽打分函数i2rScore，这个打分函数是i2Score、Δi2(见3.2.2小节)和Diff的线性组合。线性组合的权重向量通过在特定质谱数据集上训练的线性分类SVM模型来动态确定。实验表明，与i2Score肽打分函数相比，i2rScore能够提高10%以上的谱图鉴定数和非冗余肽鉴定数。

其他文献

基于移动GIS的公路绿化评价系统的研究与实现

公路绿化不仅可以美化路容、净化环境,同时也是保障交通安全的重要条件之一因此,对于公路绿化评价也显得极其重要。而现阶段,对于公路绿化的评价仅仅停留在手工与纸质阶段,完

学位

公路绿化评价层次分析法移动GIS

基于SNMP协议的监控系统设计与实现

随着网络的广泛应用,各种应用系统的日益增多,保证整个信息系统的稳定、高效运行就显得极其重要。要实现这一点,除了依靠设备和应用系统自身的可靠性,还必须依靠一套有效的监

学位

Web服务工作流的研究及其在城市地铁应急平台中的应用

地铁作为城市最重要的公共交通工具,承载着大量的旅客,确保地铁的安全运营至关重要。特别是近年来随着我国各大城市建设和运营规模的不断扩大,地铁面临的安全形势日益严峻,对

学位

工作流地铁应急指挥过程模型Web服务

数字集成电路硅后调试技术研究

随着集成电路设计复杂度的不断增加，设计错误的数量也在呈上升趋势。由于速度及模型正确性的约束，硅前验证已经不能保证没有设计错误遗留到硅后阶段。而且随着工艺的发展，硅片中

学位

数字集成电路硅后调试怀疑窗追踪扫描模型正确性多核芯片

共享式数据中心面向动态资源调度的性能分析技术研究

共享式数据中心利用虚拟化技术在满足各个应用对资源动态需求的同时也提高了资源的利用率，解决了数据中心由于资源浪费带来的一系列问题。服务部署系统利用资源模块化和资源的

学位

共享数据中心动态资源调度性能分析大范围变动虚拟化短相关负载

基于云平台可信根关键技术的研究

云计算是继并行计算、网格计算和分布式计算后的又一新式的商业计算模型。它展示出五种新颖特征:快速弹性伸缩、资源池、按需自助获取服务、广泛的网络接入、可度量服务,这些

学位

可信根服务器可信云计算中心架构可信引导云计算云安全

一种面向网页木马的主机入侵检测技术研究与实现

随着互联网的不断发展,网页木马这一新形态的恶意代码已经成为互联网上最主要的安全威胁之一。由于其具有被动传播、可利用浏览器提供的客户端执行能力等有别于传统恶意代码

学位

面向网页木马入侵检测恶意代码网络安全COM组件交互式蜜罐

科学计算网格软件SCE的性能测试和优化

科学计算网格(ScGrid)的开发源于建设“中国科学院超级计算环境建设与应用”，希望建立一个能够把各学科计算应用集成到统一的网格环境，推动超级计算应用水平的提高，为科研信息化

学位

科学计算网格数据库负载测试压力测试并发测试

英文短文本相似性研究及在图书推荐中的应用

随着互联网的飞速发展,顾客和商家对电子商务推荐系统的需求日益强烈。然而当前的电子商务推荐系统大多是采用以用户为基础进行构建的。同时,由于系统建立之初,顾客对系统的

学位

推荐系统领域术语短文本相似性

多概率联合控制随机多址接入无线传感器网络MAC协议分析

无线传感器网络(Wireless Sensor Network,WSN)是由众多集传感能力、计算能力和通信能力于一体的资源受限(计算、存储能力和能源等方面受限)的嵌入式节点通过无线通信方式互

学位

无线传感器网络随机多址多通道多概率联合控制

基于统计学习的肽鉴定方法研究

与本文相关的学术论文