蛋白组学中串联质谱定性多肽算法研究

被引量 : 2次 | 上传用户:shaohuang321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
串联质谱已成为蛋白质组研究不可或缺的分析手段,但如何分析由其产生的高通量数据却是巨大的挑战,特别是提高蛋白质序列库搜索定性多肽结果的准确度和速度。本论文基于对大量高质量质谱的数据挖掘,尝试提出新的方法来解决这一问题。为此,本论文对以下两方面内容进行了研究。第一方面为多肽质谱数据挖掘,由第二至第四章组成。在第二章中,本论文对脯氨酸效应在低能量碰撞诱导裂解(CID)多肽质谱中的裂解行为进行研究。通过对大量包含脯氨酸的多肽质谱的数据挖掘,绘制出了脯氨酸的裂解行为图,发现脯氨酸的N端肽键在多肽裂解过程中为优先断裂的位点,形成高丰度的质谱峰。但其受多肽所带的电荷,氨基酸组成,及脯氨酸在多肽中的位置等因素影响,并且与其它多肽裂解途径如天门氨酸效应,yN-2-b2效应等形成竞争。脯氨酸裂解行为图的研究拓展了对脯氨酸在低能量CID中的裂解规律的认识,提供了脯氨酸N端肽键在不同多肽中发生选择性裂解的概率。这种模式也为之后由数据挖掘大量质谱来预测多肽质谱打下了基础。第三章中本论文对新近证实的多肽杂排离子进行研究。由于其在质谱预测以用于蛋白质序列库搜索的过程中并没有被考虑,因此其是否会影响多肽定性结果成为关注的焦点。为此,本论文首先对杂排离子在低能量CID质谱中的分布及可能的裂解规律进行数据挖掘,发现其普遍存在于多肽质谱中,形成的质谱峰个数占质谱峰总数的10%以上,但强度低于基峰的20%。对其裂解规律的挖掘发现无主导其裂解的规律。这些发现大大丰富了对杂排离子的认识。然后,本论文采用三种多肽定性策略的五种定性算法对来自不同仪器的包含和未包含杂排离子的质谱进行定性。通过比较和分析定性结果,发现杂排离子在某种程度上会对定性结果产生影响,而其影响方式则是干扰算法在质谱预处理过程中对y,b等序列离子的提取,从而影响多肽质谱匹配得分。但若采用有效的质谱预处理方法或稳健的打分算法,则可以有效消除该影响。对杂排离子广泛的研究揭示了这些新证实离子在质谱中的存在方式及其对多肽定性的影响,为下一章质谱预测提供非常有价值的信息。在第四章中,本论文开发基于数据挖掘技术的pepMSPredictor算法对多肽碎片离子质谱进行预测。pepMSPredictor根据多肽竞争裂解模型将多肽的裂解分成了不同裂解途径,并提取每一裂解途径所产生的碎片离子强度作为单独的数据集,采用不同变量集对这些碎片离子进行描述。利用二叉树将每一数据集分成多个区域之后,对每一区域或多个区域建立随机梯度助推树回归模型。最后将不同裂解途径的预测结果进行合并组成多肽的预测质谱。通过标准蛋白质混合物质谱数据的测试表明pepMSPredictor可准确地预测多肽质谱,且具有良好的扩展性,即对其它仪器产生的质谱数据依然具有很高的准确性。第二方面为质谱数据预处理方法的开发。由于高通量质谱数据中存在大量不可解释质谱及蛋白质序列库搜索过程中因需要穷举不同母离子电荷而带来的重复搜索使定性结果中的大部分为错误定性结果,导致正确定性结果难以被有效提取出来。因此需要消除那些干扰质谱。本论文为得到有效的质谱过滤方法,首先对质谱峰提取方法进行全面研究,获得了较优的质谱峰提取方式。另外,本论文提出由简化的理论同位素分布来检测实际质谱中的同位素分布以消除这些同位素峰。对真实数据的测试表明该方法具有良好的性能。在上述两种质谱峰预处理方法的基础上,本论文对高通量质谱进行质谱质量评估消除不可解释质谱,并对母离子电荷进行预测以降低搜索结果的空间。为使模型可应用于不同数据体系,本论文提取了大量的变量来对质谱进行描述,并采用线性判别分析(LDA)方法对这些数据体系分别建立质谱质量评估和电荷预测模型。通过大数据集的测试,所建立的质谱质量评估模型可有效消除会产生错误结果的质谱而保留绝大部分可被正确定性的质谱。若将质谱质量评估模型和电荷预测模型相结合,则可消除60%以上的错误定性结果而保留90%以上正确定性结果。这表明本论文所开发的模型具有良好的实用性和可靠性。
其他文献
在我国目前的教育环境中,体育教师作为学校体育事业以及学生体育素质培养的直接参与者与组织者,他们不仅担负着学校体育教学工作的开展情况以及体育课堂教学质量与体育教学改革
针对华北平原地区小麦、玉米一年两熟种植中,因玉米秸秆覆盖量大,机具播种过程中易产生堵塞,导致播种质量差、苗弱拥挤等问题,结合当地农艺要求及种肥同播原理,设计了一种新
装配式混凝土结构符合绿色、低碳理念,近年在我国得到广泛关注和研究。介绍了几种典型的房屋建筑装配式混凝土结构的建造新技术,包括万科集团PC、PCF技术,中南集团NPC技术,宇
  装配式混凝土结构是由预制混凝土构件或部件装配、连接而成的结构,简称装配式结构。经过了上世纪90年代的发展低潮后,近十年来装配式结构在中国逐渐升温,并在建筑设计、构件
目的观察复方沙棘籽油栓治疗慢性盆腔炎的临床疗效。方法将我院2008年1月至2009年10月收治的372例慢性盆腔炎患者随机分为两组,对照组116例采用常规抗感染治疗,观察组256例在
深圳京基100超高层钢结构整体变形控制包括整体垂直度和竖向变形控制,采用内控法和经纬仪外控法相结合的方法控制项目的垂直度,采用钢筋混凝土核心筒施工超前钢框架外框筒施
乔治·艾略特(1816-1880)是英国维多利亚时期最杰出的女作家之一。她对宗教,道德,哲学,艺术等许多领域有着独特的见解,并尤其善于深刻洞察人类的精神世界。她的小说以其对人物细致
利用有限元分析软件ANSYS对一款新型自升式脚手架架体结构建立有限元模型,并对其进行水平、竖向变形和应力分析,以验证其可行性。分析结果表明,该架体结构在最不利施工工况下
目的:重性抑郁障碍(MDD)是一种常见的慢性复发性精神疾病,严重的危害人类健康。近年来病因学研究证实MDD发生与遗传、环境因素密切相关,但其发病机理复杂,至今尚未完全阐明。
本论文结合来自中国石油集团某公司的重大横向课题“高精度振动校准系统的研制”,对地震检波器校准若干方法问题进行了研究。第一章论述了论文的研究目的和意义。论文首先介