论文部分内容阅读
代谢组学产生源自细胞代谢的小分子谱,可以直接反映复杂生化反应网络的结果,从而提供关于细胞生理学的多方面见解。随着系统生物学和生物信息学的发展,代谢组学凭借自身的独特优势,在揭示复杂疾病的发病机制、生物标志物的识别以及药物开发等方面都显现出了极其重要的作用。同时由于高通量组学技术和化学分析技术的快速发展,积累了包括代谢组学在内的海量的生物组学数据。由于临床数据收集时间的延长和分析样本量的巨大,在药物/靶点的发现和个性化医疗的指导中经常遇到长期和大规模的药物代谢组学分析。而到目前为止,在大规模代谢组学分析中将多个实验的分析结果进行整合即后期数据整合(ReIn)方法已经成为一种广泛使用的数据分析策略,用以提高分析结果的可靠性和稳健性。多个实验的前期数据整合(DiMe)方法也是被应用于数据分析以提高统计功效,同时减少实验偏差,以及提高实验的重现性和整体生物学理解。然而,与后期数据整合方法(ReIn)相比,前期数据整合方法(DiMe)尚未在当前代谢组学研究中广泛采用,这是由于在研究分析中难以剔除不必要的变量,与此同时缺乏对于现有数据整合方法进行效果分析的研究成果。因此目前迫切需要分析阐明DiMe方法是否可以提高代谢组学数据分析的效果。因此在本研究中,通过多个评价标准(分类能力,稳健性和错误发现率)对DiMe方法在4对基准数据集中的应用效果进行了全面的评估。首先,对常用的代谢组数据存储库MetaboLights进行综合的调研。通过关键词“mass spectrometry”在MetaboLights数据库中进行检索,并在随之检索到339条研究数据项目(截止2018年9月16日)中使用几个挑选标准来确保原始代谢组学数据的可用性和可处理性。其次,基于分类能力,稳健性和错误发现率三个评价标准对3种针对LC-MS的代谢组数据整合分析方法进行评估。对于分类能力来说,其通过ROC曲线分析以及曲线下面积(AUC)的测量来进行定量评估所构建模型的分类能力。对于分析的稳健性来说,基于多对标记列表之间对于重叠率(overlap values)进行计算。重叠率越接近等于1,该研究中生物标志物识别则越稳健。对于错误发现率来说,EF被用于测量一定分析策略鉴定来自所有代谢物的真实标记的随机选择的真实标记物鉴定的增加机会。本研究发现,基于前期数据整合/后期数据整合的方法(ReIn/DiMe)在所有评估指标中都优于单个实验数据的分析结果。除此之外,研究同时发现前期数据整合方法即DiMe在分类能力和稳健性方面优于后期数据整合方法(ReIn),而ReIn方法在控制错误发现率方面表现出优越的能力。综上所述,本文从当前代谢组学数据整合方法的标准化评估所面临的一些亟待解决的问题出发,基于LC/MS代谢组学分析技术平台,通过分类能力,稳健性和错误发现率三个指标对数据整合分析方法进行了综合评估,为当前研究者选择最适的代谢组学研究分析策略提供了有价值的指导和参考。