面向质谱数据的蛋白质直接鉴定系统设计与实现

被引量 : 0次 | 上传用户:pengweimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“人类基因组计划”的提出,蛋白质组学迅速发展并在相关领域得到了广泛应用。以质谱数据分析为核心的蛋白质鉴定成为蛋白质组学研究的关键领域之一。目前蛋白质鉴定依赖于Mascot等付费或几个免费的数据库,考虑到蛋白质分析的复杂性,Mascot等付费数据库具有较好的性能但无法大规模推广。更关键的是,当前质谱仪的工作原理很可能忽略强度不高但极有价值的谱峰。针对上述问题,本文研究不依赖付费数据库的蛋白质直接鉴定系统,并期望能将算法嵌入质谱仪的实时处理流程中,以更为精确地获取数据。首先,本文讨论了蛋白质组学研究的背景和意义,并较为详细介绍了蛋白质质谱数据的结构和质谱图的基本分析过程,以及国内外在蛋白质研究领域的现状。其次,在简要介绍基于质谱进行蛋白质鉴定流程的基础上,详细说明了几种典型的蛋白质鉴定算法,包括从头测序法、序列搜索鉴定法、使用Tag的方法和质谱数据库搜索方法。然后,提出了蛋白质直接鉴定算法的基本思想,并重点说明了直接鉴定过程的几个关键步骤,包括质谱数据预处理,一级质谱数据分析和二级质谱数据分析。同时,结合“高精度质谱分析”和“稳定同位素快速验证”方法给出了直接蛋白质鉴定流程。最后,针对生物学数据分析平台Galaxy给出了直接蛋白质鉴定系统的设计思路和具体实现。该系统包含三个关键模块,分别是:质谱解析、一级质谱分析和二级质谱分析。系统采用适合质谱数据的开发语言(C++,python,perl),根据给出的设计方案在集成相关开源工具基础上完成了整个系统,可以通过(sam.galaxcloud.com)访问该系统。最终的测试表明,典型的质谱文件(Raw文件)可以作为系统输入,通过预处理、格式转换、一级和二级质谱分析,在不依赖蛋白质数据库的条件下,实现蛋白质鉴定。同时,所开发的算法能够在进一步简化的基础上嵌入到质谱仪中,从而进一步提高质谱仪的工作效率。
其他文献
学院派艺术始于16世纪末的意大利,后逐渐成为欧洲主流艺术流派。特别是法国学院派,因官方的格外重视与高度参与而成为18、19世纪法国艺术的代表形式,并奠定了法国作为欧洲艺
目的探讨临床血液生化检验标本分析过程中影响检验结果准确性的相关因素。方法采用回顾性分析的方法,随机抽取我院检验科50份血液临床生化检验标本,对标本采集的方法、抗凝剂
口译过程中,译员不可避免地会碰到含中国特色文化的信息,如风俗习惯、诗词习语、历史典故等,这些文化因素是口译中颇为棘手的问题。译员处理文化因素的能力影响着异语双方的
<正> 教师的教与学生的学密切配合,且同步同向进行,才能使教育教学质量得以提高。教师的教起主导作用,其中备课的环节是"教"中之重。备好课是上好课的前提和基础。教师除要进
硅橡胶作为一种兼具无机和有机性质的高分子功能材料,具有优异的耐高低温、耐候、电气绝缘性、高透气性及生理惰性等,在现代工业中应用广泛。随着人们生活水平的提高,对硅橡胶性
整体叶轮作为航空航天发动机的重要零件,其设计要求要符合流体动力学原理。而对叶轮进行建模时,只通过设计者提供的一些离散数据点,这样建立的模型质量不高,曲面光顺度不好,影响数
通过对永咸高速公路的总概预算的阐述,分析了其各项费用组成和所占比例,并对永咸高速公路中超概情况进行了研究探讨,以节约工程造价,提高公路投资资金的利用率。
许多大型企业由集权制转向分权制,责任会计是在分权管理的条件下,为了适应经济责任制的要求在企业内部设立若干个责任单位,并对他们分工负责的经济活动进行规划、控制和业绩
近年来,生物质能源的开发利用正逐渐受到越来越多的关注,其中生物柴油是一种清洁可再生的生物质能源。在自然界中广泛存在、来源丰富,属可再生资源的植物油脂和柴油在结构组
儿童是热性惊厥的多发人群,发病影响因素众多,且发病机制尚不明确,没有十分有效的预防与治疗方法,严重威胁儿童身体与心理健康。本人结合所在乡镇医院近年来对儿童热性惊厥的