基于生物质谱技术的规模化完整糖肽鉴定方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wzxgxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的糖基化修饰是最常见、最重要的蛋白质翻译后修饰之一,在生命活动中发挥着关键作用。随着生物质谱技术的发展,糖基化修饰的质谱鉴定也越来越受到人们的重视,研究热点从糖组学的糖链鉴定和蛋白质组学的糖基化位点鉴定逐渐发展到糖蛋白质组学的位点特异糖链鉴定,即完整糖肽的规模化鉴定。  糖肽可以看作是糖链与肽段的交联。由于非线性的糖链与线性的肽段具有不同的理化性质,因此糖肽的质谱行为远比交联肽段复杂,具体表现在糖肽尚无法在同样的碎裂条件下形成糖链碎片和肽段碎片都很丰富的谱图,因此必须联合使用CID、HCD、ETD等多种碎裂模式,甚至需要切断糖链和肽段分别鉴定,导致流程复杂、通量不高。此外,任何组学意义下的规模化鉴定都需要估计和控制错误率,但是同样由于糖链的复杂性,实验上尚无法规模化合成标准糖肽来构造标注数据集,计算上也无法简单推广肽段鉴定中的错误率估计方法来估计糖链鉴定的错误率,更没有认识到糖肽、糖链、肽段鉴定错误率的差异和联系。因此,完整糖肽的规模化鉴定尚没有领域普遍认可的鉴定流程和鉴定软件,目前最高纪录不过2,000多条完整糖肽,而相对流行的商业化糖肽鉴定软件实际鉴定错误率高达20%到30%,比之1%的估计值高出甚多。  针对完整糖肽规模化鉴定中存在的上述问题,本文从分析糖肽在质谱中的碎裂规律入手,设计了糖肽鉴定质谱实验流程和搜索引擎,实现了完整糖肽规模化鉴定的新里程碑。具体内容包括:1、碎裂规律分析。本文对完整糖肽的碎裂规律进行了初步分析,在Thermo的Orbitrap Fusion上同时比较了CID、HCD和ETD下的糖肽碎裂模式以探索最优的糖肽碎裂策略。2、质谱流程设计。根据碎裂规律的研究结果,本文开发了两个完整糖肽质谱鉴定流程:基于二、三级谱结合的pGlyco和基于阶梯能量HCD的pGlyco2.0。3、搜索引擎设计。本文针对pGlyco和pGlyco2.0两个流程,设计了综合考虑糖肽糖链和肽段碎片离子的软件搜索流程和打分算法,并且首次对完整糖肽假发现率(FDR)问题进行了数学建模和实验检验。为了弥补目前糖链数据库不全的缺陷,本文设计了针对糖链的从头测序算法pGlycoDenovo。下面就上述三点进行详细介绍。  一、碎裂规律的研究是设计鉴定流程和软件的基础。本文在Thermo的OrbitrapFusion上,通过对糖肽“一母多谱”的10%~50%,间隔为5%的9种能量CID、9种能量HCD和不同模式ETD(ETD、ETciD和EThcD)的碎片离子分析,得到了三点结论:1、不同能量下的HCD能够提供不同类型的碎片离子,低能量HCD产生了较为丰富的糖链碎片离子,高能量HCD则产生较多肽段碎片离子,结合低、中、高阶梯能量,HCD可以得到较为丰富的糖链和肽段碎片离子;2、无论能量如何,CID主要产生糖链的碎片离子,而较少得到肽段碎片离子;3、尽管EThcD对ETD自身的碎裂效率有所提高,但是其碎裂效率依然较低。至此,本文完成了目前最为全面的糖肽碎裂规律统计分析。  二、基于前述碎裂规律研究,本文设计了两种完整糖肽的质谱实验流程pGlyco和pGlyco2.0。pGlyco利用数据依赖采集模式的Y1离子三级谱图鉴定肽段、结合CID/HCD二级谱鉴定糖链,从而达到完整糖肽的鉴定。根据HCD阶梯能量20-30-40%能够得到较为丰富的糖链和肽段碎片离子这一特征,本文设计了基于单张谱图的完整糖肽鉴定流程pGlyco2.0。pGlyco2.0是目前最简洁高效的糖肽鉴定的质谱实验流程。  三、针对前述pGlyco两个鉴定流程,本文设计了相应的搜索引擎,完整解决了糖肽匹配打分、错误率估计、结果检验等问题。1、本文解决了糖链FDR估计难题。对于糖链树形结构“反转难”的问题,本文设计了一种基于糖链理论谱图的诱饵构造方法,并且为了避免传统目标-诱饵库策略所谓的1∶1假设,本文使用有限混合模型FMM,得到了糖链鉴定的FDR估计算法。2、本文首次提出并解决了糖肽FDR估计问题。本文从贝叶斯后验错误率的角度分析,推导出了糖肽FDR的数学模型,并且设计了相应的FDR估计算法。3、本文首次提出并实现了利用稳定同位素标记定量信息来规模化检验糖肽鉴定正确性的方法,据此设计了糖肽FDR估计的另外一种算法,与前一种FDR估计方法相互印证。4、本文设计了糖链组成的从头测序算法,不仅可以不依赖糖链数据库,而且与现有糖链数据库鉴定结果高度吻合。  最终,基于富集后的小鼠心、肝、脑、肺和肾五种组织的糖肽样品,本文使用pGlyco2.0在糖肽谱图层次FDR≤1%下总共鉴定到了79,930张糖肽谱图,对应10,797条非冗余糖肽,1,988个糖基化位点(955条蛋白),其完整糖肽鉴定通量达到了目前领域内不切糖链流程下的最高水平,也极大地超越了切糖链流程的通量。在鼠肝数据上,pGlyco2.0与pGlycoDenovo鉴定结果的一致性高达99.8%,对两个软件各自的正确性是个有力的佐证。
其他文献
B树及其变种近年来一直作为一种数据结构用来存储大文件信息,特别是在辅存中. 那如何保证B树搜索,插入,删除的安全性就变得对数据库应用及其重要.该论文中对B树的结构做了很
为适应计算机辅助教学发展的趋势,该文实现了一种新的课件开发模式---以多媒体 数据库为核心,以超媒体为主要表现方式的课件开发(该文称超媒体CAI课件).整个系统在 中文WINDO
该论文正是在完成了装备能源管理系统这样一个实际的应用系统的基础上撰写的.论文依据计算机集成制造理论,信息工程,分布式数据库技术等理论,通过对大型企业设备能源管理(特
软件复用是解决软件危机的一种有效途径,而基于API库的软件开发是软件复用的一种重要方式。API使用约束描述了程序在调用API方法时必须满足的要求。这些约束的违反将导致使用
随着信息技术的快速发展,XML数据的应用越来越广泛。XML应用于Web开发的许多方面,常用于简化数据的存储和共享。为了推动XML数据查询和处理的标准化,国际万维网组织W3C发展了XQu
该文将MAM模型从两个方面作了推广:一方面,由于在目前的信号、图象处理等领域 中存在着大量的复信号需要处理,MAM模型无法直接处理这些复信号,所以有必要将MAM模型推广为复形
战术数据链本质上是一种数据通信系统,它能够链接战场上的各种作战平台,从而使各种作战平台之间快速的交换各种情报信息,实现战场态势和信息的共享,提高协同作战能力,是信息化时代
农作物产量预测已经成为关系到国家粮食安全,调整宏观经济的一个重要工具,对我们国家社会的健康发展有重要的意义。极限学习机(ELM)已经被广泛地运用在很多领域,比如图像识别,生
在交互设计领域中,室内设计图形模型(设计提案、画草图、画图、施工成本计算和 评价等)依赖于客户的状态的要求.通过对施工图的认真和严格的分析可以获得上述模型.从图中析取
目前软理用在国际上受到广泛重视,该文研究在分布式环境下的基于CORBA构件的软 件开发过程.文章首先讨论了构件技术和CORBA技术,提出了CORBA构件的概念并对其进行了描述.接着