论文部分内容阅读
代谢组学(metabolomics)是系统生物学重要的组成部分,旨在对生物样本中的低分子量代谢物进行系统鉴定,已广泛应用于生物标志物的筛选和生理病理进程机制的研究。代谢组学可以同时检测生物流体、细胞和组织中的数千个代谢物,已经成为生物医药研究领域的重要工具。但是,代谢组学研究仍然面临着巨大挑战,包括(1)由于实验成本高、实验资源有限等原因,很多代谢组学研究的样本量一般在几十或几百的数量级。样本量小和样本的代表性不足,对后续的数据分析会产生较大的影响,比如导致筛选的差异代谢物不稳定或者分类能力差。(2)归一化方法是代谢组学数据分析必不可少的一部分,用于消除非期望的仪器噪音和生物学偏差。但应用不同的归一化方法会产生完全不同的结果,如何选出最合适的归一化方法成为代谢组学研究的重要挑战。(3)据报道,不同组学数据识别的生物标志物存在高度不稳定的问题。这种不稳定的结果导致人们对已报道的生物标志物的可靠性存在质疑,并极大地阻碍了它们在临床中的应用。(4)在非靶向代谢组学研究中,代谢物注释能力非常有限,只有不到2%的质谱峰能被成功鉴定为特定的代谢物,再将代谢物对应为相应的生物学信息也面临挑战。
针对在代谢组学数据分析中所面临的严峻挑战,本文所开展的创新性研究主要从以下四个方面开展:(1)提出了一种将多个分析实验数据合并成一个整体数据的方法,构建了增加样本数据量和样本代表性的算法,以得到更稳定可靠的分析结果,大大增加了大规模代谢组学研究筛选的生物标志物的稳定性。(2)为了校正信号漂移并消除批次效应,开发了在线服务器NOREVA(https://idrblab.org/noreva/),旨在从多种角度评估各种归一化方法的性能。NOREVA提供了全面的归一化方法,包括基于内标的归一化方法和基于QC样本对信号漂移的校正,以及基于五个评估标准的综合分析以进行全面的评估。此外,根据原理,将归一化方法分为对样本的归一化(基于参考样本以减少样本间的差异),和对代谢物的归一化(基于归一化因子以降低代谢物之间的信号偏差)。本文提出并验证了在代谢组学中应用组合策略(将两类归一化方法合并使用)可以得到更好的结果。为了将代谢组学的归一化方法的应用延伸至更广的领域,本文构建的NOREVA,实现了对时间序列和多类问题数据的归一化和多标准系统评估。NOREVA整合了168种基于组合策略的归一化方法,对于特定代谢组学数据通过多角度评估以确定性能最好的归一化方法。(3)针对生物标志物不稳定的问题,本文构建了一个新的生物标志物筛选方法,是基于支持向量机-递归特征消除算法,整合随机抽样和一致性打分的新算法。通过转录组学数据进行充分验证,发现与传统方法相比,本研究提出的新方法表现出更强的稳定性和更好的分类预测能力。代谢组学数据应用这个新的生物标志物筛选方法,可以发现疾病的诊断和潜在药靶分子。(4)开发了一个用于代谢组学数据分析的在线服务器MMEASE(https://idrblab.org/mmease/)。其中包含了数据庞大和信息丰富的代谢物数据库,一共提供了超过33万个代谢物和外源性注释信息。具体包括107,071个内源性代谢物,124,451个外源性代谢物和169,352个肽类,并包含代谢物的详细的外源性注释信息。在线服务器MMEASE也提供了对代谢物的富集分析功能,包括化学家族、化妆品成分、食物成分和食品添加剂、植物代谢物和农用化学品、小分子药物和药物代谢物、毒素、环境污染物和微生物代谢物,天然药物次生代谢产物的物种分类和疗效分类八个条目。
综上所述,本文从代谢组学研究所面临的亟待解决的问题出发。在代谢组学数据整合、数据归一化、生物标志物识别和代谢物注释富集等多个方面开展了系统研究。构建了一系列用于代谢组学数据分析的算法和平台,作为代谢组学研究在整合大规模数据、选择最优的数据分析流程、筛选最稳定可靠的生物标志物和阐释生物学意义等方面的有用工具。本文将为基于代谢组学研究发现稳定可靠的生物标志物或药物靶点提供有力支撑。
针对在代谢组学数据分析中所面临的严峻挑战,本文所开展的创新性研究主要从以下四个方面开展:(1)提出了一种将多个分析实验数据合并成一个整体数据的方法,构建了增加样本数据量和样本代表性的算法,以得到更稳定可靠的分析结果,大大增加了大规模代谢组学研究筛选的生物标志物的稳定性。(2)为了校正信号漂移并消除批次效应,开发了在线服务器NOREVA(https://idrblab.org/noreva/),旨在从多种角度评估各种归一化方法的性能。NOREVA提供了全面的归一化方法,包括基于内标的归一化方法和基于QC样本对信号漂移的校正,以及基于五个评估标准的综合分析以进行全面的评估。此外,根据原理,将归一化方法分为对样本的归一化(基于参考样本以减少样本间的差异),和对代谢物的归一化(基于归一化因子以降低代谢物之间的信号偏差)。本文提出并验证了在代谢组学中应用组合策略(将两类归一化方法合并使用)可以得到更好的结果。为了将代谢组学的归一化方法的应用延伸至更广的领域,本文构建的NOREVA,实现了对时间序列和多类问题数据的归一化和多标准系统评估。NOREVA整合了168种基于组合策略的归一化方法,对于特定代谢组学数据通过多角度评估以确定性能最好的归一化方法。(3)针对生物标志物不稳定的问题,本文构建了一个新的生物标志物筛选方法,是基于支持向量机-递归特征消除算法,整合随机抽样和一致性打分的新算法。通过转录组学数据进行充分验证,发现与传统方法相比,本研究提出的新方法表现出更强的稳定性和更好的分类预测能力。代谢组学数据应用这个新的生物标志物筛选方法,可以发现疾病的诊断和潜在药靶分子。(4)开发了一个用于代谢组学数据分析的在线服务器MMEASE(https://idrblab.org/mmease/)。其中包含了数据庞大和信息丰富的代谢物数据库,一共提供了超过33万个代谢物和外源性注释信息。具体包括107,071个内源性代谢物,124,451个外源性代谢物和169,352个肽类,并包含代谢物的详细的外源性注释信息。在线服务器MMEASE也提供了对代谢物的富集分析功能,包括化学家族、化妆品成分、食物成分和食品添加剂、植物代谢物和农用化学品、小分子药物和药物代谢物、毒素、环境污染物和微生物代谢物,天然药物次生代谢产物的物种分类和疗效分类八个条目。
综上所述,本文从代谢组学研究所面临的亟待解决的问题出发。在代谢组学数据整合、数据归一化、生物标志物识别和代谢物注释富集等多个方面开展了系统研究。构建了一系列用于代谢组学数据分析的算法和平台,作为代谢组学研究在整合大规模数据、选择最优的数据分析流程、筛选最稳定可靠的生物标志物和阐释生物学意义等方面的有用工具。本文将为基于代谢组学研究发现稳定可靠的生物标志物或药物靶点提供有力支撑。