基于生物质谱技术的定量蛋白质组学数据解析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shanghairenxuchenhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
定量蛋白质组学主要研究复杂生物体内的蛋白质表达量的变化情况。正常表达的蛋白质可以保证生物的新陈代谢、维系生命,表达量不正常的蛋白质会导致如癌症等严重的疾病。定量蛋白质组学的技术与成果可以应用于发现新的生物功能,可以用于寻找疾病标记物,可以发现治疗疾病的靶标蛋白质。定量蛋白质组学的关键技术之一是使用生物质谱技术将蛋白质在生物体内的表达量信息“数字化”,即产生质谱数据,而后通过解析质谱数据中的信息,还原生物体内蛋白质的表达量情况。本文即是对基于生物质谱技术的定量蛋白质组学数据解析开展研究。  经过二十多年的发展,定量蛋白质组学的相关技术取得了长足的进步,但是,在面向临床、面向应用的实践中遇到了很多困难。具体到数据解析环节面临的关键计算问题有:(1)在解析数据时需要提取精确的肽段信号。(2)现有软件给出的肽段或蛋白质的定量比值不够准确。(3)缺乏对定量比值的准确性进行系统评价的算法。另外,要解决实际问题,还需要开发鲁棒实用的定量软件,并与其他质谱数据分析软件整合,形成完整的数据分析平台。本文重点探讨了上述关键计算问题,提出自己的解决方案,编写了蛋白质定量软件pQuant,并进行了充分的实践检验,其主要贡献总结如下:  1、精准提取肽段信号,选取干扰最小的部分用于计算定量比值。定量蛋白质组学的研究对象都是复杂样品,一次进入质谱仪的肽段可能多达10万条,另外还有空气、试剂以及材料引入的各种杂质,他们在质谱仪中的信号会重叠在一起。我们观察到肽段在质谱一级谱图中的信号以同位素峰簇的形式存在,并在保留时间一维有从低到高再到低的趋势。只有充分利用这些信息才有可能区分重叠在一起的信号。以往的定量数据解析软件往往只关注“同位素峰簇”一维信息,或只关注“保留时间变化趋势”一维信息,或同时关注两维信息但没有进行深入的挖掘。这样,提取的肽段信号中往往包含干扰,最后得到了不准确的定量结果。我们首先重构“同位素色谱曲线”,并设计算法,选择干扰最小的同位素色谱曲线,用于后续计算比值。  除此以外,本文对信号提取各细节步骤和问题均进行了深入分析,包括:一级谱峰中心化,计算肽段理论同位素分布,确定实际同位素峰,重构色谱曲线,保留时间对齐,计算标记效率等。  2、全面综述了目前的定量比值计算方法,并在此基础上,提出了基于最小一乘法的局部线性拟合分析方法。目前可以用于计算比值的方法有接近10种。已有的软件在设计、使用各方法时大都依靠人工经验,极少对问题进行数学建模,并缺乏对其解法的深入讨论。本文对几乎所有的比值计算方法进行了深入分析、比较了各自的缺点,并设计了一套新的计算方法。在模拟数据以及真实数据上,该方法均可以得到更准确的定量比值。  另外,我们使用置信区间来评价比值的准确性。首先给出了肽段比值的置信区间,而后使用核密度估计方法,计算蛋白质的比值和置信区间。该方法不需要用户再划定肽段“准确”和“不准确”比值的阈值,所有肽段都可以用于计算蛋白质比值,所有蛋白质都有比值。与此同时,可以有效减少不准确肽段比值对蛋白质比值的影响。另外,本文提出的蛋白质比值置信区间可以用于后续生物学分析,得到正确的结论。  3、为了检验和评估算法,我们制备了一批较大规模的数据集,分别是15N标记的E.coli数据和SILAC标记的HeLa细胞数据,每批数据均有7种混合比例的样品,可以作为领域内的标准测试数据集。我们将pQuant与MaxQuant、Census这两个同类软件进行了对比。MaxQuant和Census两个软件均发表在Nature系列杂志上,代表目前已有软件的最高水平。在SILAC数据集上,Census的肽段“非数”比值能占到比值总数的2.5%到10.7%,MaxQuant的肽段“非数”比值能占到比值总数的1.8%到2.7%,pQuant只有0.01%到0.5%。在15N标记数据集上,Census和pQuant分别输出了0.9%到10.0%和0.3%到2.9%的非数肽段比值。除去“非数”比值,对比其他比值的标准差,Census和MaxQuant比pQuant大30%到100%。pQuant的定量精度有明显的提高。  4、在这些研究的基础上,我们将pQuant用于寻找差异表达蛋白质。这是对定量蛋白质组学数据解析各成果的综合考验与实践。本文分别将daf-2和daf-2;daf-16两种线虫的线粒体蛋白质与N2线虫的线粒体蛋白质进行了对比,最后报告147个蛋白质在daf-2、N2线虫线粒体中是差异表达的,135个蛋白质在daf-2;daf-16、N2线虫线粒体中是差异表达的。  未来的研究,我们将着眼于3个方面:(1)继续优化定量数据解析算法。(2)提高pQuant的软件易用性,支持更多的定量实验数据解析。(3)推进定量蛋白质组学研究向生物研究前沿以及临床应用发展。
其他文献
为适应企业对新一代ERP系统提出的具有鲜明行业特色、面向Intranet/Internet、可动态扩充功能的要求,该文研究、探讨了对象组件技术理论在构建企业应用系统的机制和方法.主要
蓝牙技术是一种无线数据与语音通信的开放性全球规范,它以低成本的近距离无线连接为基础,为固定与移动设备通信环境建立一个特别连接的短程无线电技术.该文介绍了蓝牙技术的
该论文进行的研究是实际应用项目"JIT DSl.0 " (JIT DSl.0 吉大正元桌面安全套件第一版,以下简称DS,DesktOpSecurity)的主要内容.这个应用软件系统运行于Windows系列操作系统
集群计算技术一直是计算机界研究的一个热点问题.集群系统不但能够充分利用现有的计算资源,而且能够通过较低的软硬件代价实现较高性能的计算机系统.随着微处理器技术和高性
近年来,由于在节点微型化技术、物联网操作系统、低功耗传输组网协议以及应用层技术等方面取得重大进展,物联网作为一种新的网络应用模式,在影响国计民生的各个领域都有了长足的
该文是基于某银行的《公司业务客户经理管理系统》,以下简称该系统.该系统的目标,是整合来自银行会计系统、国际业务系统、信贷管理系统、台帐管理系统等现有系统的资料,为客
该文扩展了UDDI的基本数据模型,加入了人员、验证信息、反馈信息、分类模式等元素,围绕分类信息、接口描述与绑定协议信息和服务质量信息提出了基于UDDI的Web Service发布和
该文介绍了嵌入式LinuX的优势和发展趋势,PDA主流操作系统的比较;iPAQ的日志闪存文件系统,RAM文件系统的特点;IEEE 802.11b、RTP(Real-time TransportProtocol)以及交叉编译
该文首先基于IETF的“Mobility Support in IPv6”草案第16稿对移动IPv6协议进行了仔细地分析,着重对移动IPv6协议中的三大功能实体移动主机、家乡代理、通信节点进行了具体
Internet的出现与快速发展,要求软件企业能够开发电子商务系统.商业建模与实现工具一个电子商务开发平台的一部分,商业建模与实现工具主要的任务是完成处于J2EE的业务逻辑层