论文部分内容阅读
背景与目的:近年来代谢组学研究在疾病识别和临床诊断及预后等方面的应用正飞速发展,网络图模型是识别代谢物关联的有效统计方法之一。鉴于贝叶斯方法处理复杂结构的能力和计算方面的高效性,贝叶斯网络方法以及整合网络方法在代谢组学数据分析中尤受关注。本研究基于实例数据和模拟研究,探讨了条件高斯贝叶斯网络(Conditional Gaussian Bayesian Network,CGBN)作为有向无环图在组学数据分类判别中的应用,以及整合无向网络图在有效整合多来源代谢组学数据时的作用,以期为代谢组学数据在疾病诊断和预后研究中的应用提供有效的分析手段。主要研究内容:第一部分评价和比较条件高斯贝叶斯网络(CGBN)的分类能力。模拟生成不同特征的模拟数据(不同相关系数,线性或非线性相关以及不同稀疏程度),比较CGBN与logistic回归、偏最小二乘判别分析、随机森林以及支持向量机等方法的分类性能;基于乳腺癌代谢组学公共数据库探究CGBN识别乳腺癌患者或早期乳腺癌的能力,探讨发现诊断乳腺癌的代谢生物标志物的策略。第二部分评价和比较基于层次贝叶斯方法建立整合网络的准确性。模拟生成不同网络图结构(带状网络、团状网络、无标度网络以及随机网络)及其具有一定相似性的亚组网络,探讨了不同先验超参数设置下的贝叶斯层次图(Bayesian Hierarchy Graph,BHG)模型和基于枢纽(Hub)节点的层次图模型(Hub-BHG)识别网络图结构的准确性,并与联合图LASSO图模型、BEAM、SSSL等其他网络建模方法进行比较;将整合网络方法应用于整合不同平台(血浆和血清),不同分期(对照组,乳腺癌早期和乳腺癌晚期)的代谢组学数据,探讨结合不同来源数据建立网络图的能力并研究代谢物关联的动态变化。主要结果:第一部分模拟分析结果:在自变量与因变量间呈非线性关联或者样本量较小时,CGBN对模拟数据分类的ROC下面积(Area Under Curve,AUC)要高于logistic回归、偏最小二乘判别分析、随机森林以及支持向量机等方法;变量之间存在高相关或者低稀疏时CGBN也能获得较好的分类效果。实例分析结果:CGBN对全病人数据集和早期乳腺癌数据集均能取得很好的分类效果(AUC=0.985、0.962),研究显示,天冬酰胺、谷氨酸等代谢物可以作为早期诊断的潜在生物标志物。第二部分模拟分析结果:BHG方法识别带状网络、团状网络以及随机网络模拟数据的网络结构能力最高,样本量为50时AUC分别为0.857、0.839以及0.745,样本量为100时分别为0.906、0.910以及0.808。当模拟数据的网络结构为无标度网络时,Hub-BHG方法识别网络结构的AUC超过BHG,分别为0.797、0.835。BHG方法与Hub-BHG方法的F值以及马修斯相关系数均高于其他方法。实例分析结果:血浆和血清两个平台之间的代谢物整合网络相似系数为0.3778,整合网络方法也显示了两平台以及不同阶段的差异性,血浆中三个阶段的代谢物网络的边数、网络密度以及聚类系数等指标均高于血清的代谢物网络。从对照组、早期到晚期血浆的代谢物网络呈连通度上升和密度增大的趋势。主要结论:基于CGBN的贝叶斯网络分类模型在高维代谢组学数据的分类中表现优于其他常用分类方法,尤其在样本量较小时具有较好的分类效果,并且能识别变量间的非线性作用,通过建立疾病相关的局部有向图网络,更加高效地识别与疾病有关的代谢标志物;建立多平台多组代谢组学数据的整合无向图网络,可以有效整合数据,提高多来源网络结构学习的效能,分析网络的动态变化。但由于多来源数据的异质性所导致网络的复杂性,以及代谢物生物学关系的不确定性,本研究探讨方法的实际性能仍需进一步研究。