论文部分内容阅读
代谢组学作为研究基因型与生物表型相互关系的重要研究手段,其发展受到越来越多的关注。然而,不同于转录组学、蛋白组学,其序列信息编码在基因中,且组成相对简单,易于鉴定;系统层面的代谢物研究因其涵盖分子的范围仍未确定而变得格外复杂。此外,代谢物的化学结构多样性高、官能团种类繁多、谱图碎片离子难以预测等特点使得代谢物的鉴定更为困难。小分子代谢物的结构鉴定作为目前代谢组学的瓶颈,严重的阻碍了代谢组学的广泛应用和相关研究。针对这一挑战,为了提高代谢物结构鉴定的准确度和效率,我们构建了高质量二级谱图数据库,并开发了数据处理程序MetDIA用于代谢物靶向分析和结构鉴定。 MS/MS谱图数据库在代谢物的鉴定中发挥着不可或缺的作用。但因MS/MS谱图高度依赖于所用仪器平台,跨平台匹配MS/MS谱图鉴定代谢物的准确度有限。为提高鉴定的准确度,本论文的第一部分为构建高质量二级谱图数据库。对同一个代谢标准品,我们采集其在正负离子模式、不同碰撞能量、不同浓度下的数据,并且将相同极性和碰撞能量下的多张不同浓度的MS/MS谱图挑选出来,并通过质量评估、相似度聚类、谱图合并、噪声移除等步骤,将多张MS/MS谱图融合成一张高质量的consensus二级谱图,并收录至数据库。目前,我们已采集823种生物体内重要代谢物的二级质谱图数据,经谱图精炼处理,数据库已收录正负离子两种不同模式下的consensus谱图,覆盖12种不同能级,总数达19,566张,极大地便利了代谢物的鉴定。 现阶段代谢组学常用的数据依赖型采集方法及其数据处理方法无法全面地覆盖生物样品中所有的代谢物。相较而言,采用数据非依赖型采集方法(Data Dependent Acquisition,DIA)可以更灵敏、更全面地获取生物样品中代谢物信息,尤其是低浓度的代谢物;但是,DIA高度复杂的数据结构严重阻碍了它的应用。为扩展代谢物鉴定的覆盖范围,本论文的第二部分为开发基于数据非依赖型采集技术的数据处理流程MetDIA,结合第一部分构建的高质量二级谱图数据库,采用靶向提取的方法分析DIA数据。不同于传统的以谱图为中心的鉴定代谢物,MeDIA是代谢物为中心的鉴定流程,它将谱图数据库中每一个代谢物当作分析目标,其离子色谱和MS/MS谱图都经检测、提取、和打分后用于代谢物的鉴定。同时,我们使用13C标记的生物提取物计算了鉴定得分的阈值,在1%假阳率的限定下,阈值设为0.8。最后,我们比较了MetDIA与传统的数据依赖型采集方法鉴定的效果,结果表明,MetDIA鉴定的准确度和灵敏度更高,且在生物样品中鉴定出代谢物数目增加了25%~75%。 综上所述,针对代谢组学瓶颈问题——代谢物的鉴定,我们从高质量谱图数据库和新型数据处理流程两个互补的方面着手,提升了代谢物鉴定的准确度与覆盖面,减少了错误鉴定给后续生物学分析引入的误导,扩宽了研究生命科学的素材,便利了从更宏观、更全面地角度揭示生命的奥秘。