贝叶斯整合网络在组学数据中的应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:zsdxzj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景与目的:近年来代谢组学研究在疾病识别和临床诊断及预后等方面的应用正飞速发展,网络图模型是识别代谢物关联的有效统计方法之一。鉴于贝叶斯方法处理复杂结构的能力和计算方面的高效性,贝叶斯网络方法以及整合网络方法在代谢组学数据分析中尤受关注。本研究基于实例数据和模拟研究,探讨了条件高斯贝叶斯网络(Conditional Gaussian Bayesian Network,CGBN)作为有向无环图在组学数据分类判别中的应用,以及整合无向网络图在有效整合多来源代谢组学数据时的作用,以期为代谢组学数据在疾病诊断和预后研究中的应用提供有效的分析手段。主要研究内容:第一部分评价和比较条件高斯贝叶斯网络(CGBN)的分类能力。模拟生成不同特征的模拟数据(不同相关系数,线性或非线性相关以及不同稀疏程度),比较CGBN与logistic回归、偏最小二乘判别分析、随机森林以及支持向量机等方法的分类性能;基于乳腺癌代谢组学公共数据库探究CGBN识别乳腺癌患者或早期乳腺癌的能力,探讨发现诊断乳腺癌的代谢生物标志物的策略。第二部分评价和比较基于层次贝叶斯方法建立整合网络的准确性。模拟生成不同网络图结构(带状网络、团状网络、无标度网络以及随机网络)及其具有一定相似性的亚组网络,探讨了不同先验超参数设置下的贝叶斯层次图(Bayesian Hierarchy Graph,BHG)模型和基于枢纽(Hub)节点的层次图模型(Hub-BHG)识别网络图结构的准确性,并与联合图LASSO图模型、BEAM、SSSL等其他网络建模方法进行比较;将整合网络方法应用于整合不同平台(血浆和血清),不同分期(对照组,乳腺癌早期和乳腺癌晚期)的代谢组学数据,探讨结合不同来源数据建立网络图的能力并研究代谢物关联的动态变化。主要结果:第一部分模拟分析结果:在自变量与因变量间呈非线性关联或者样本量较小时,CGBN对模拟数据分类的ROC下面积(Area Under Curve,AUC)要高于logistic回归、偏最小二乘判别分析、随机森林以及支持向量机等方法;变量之间存在高相关或者低稀疏时CGBN也能获得较好的分类效果。实例分析结果:CGBN对全病人数据集和早期乳腺癌数据集均能取得很好的分类效果(AUC=0.985、0.962),研究显示,天冬酰胺、谷氨酸等代谢物可以作为早期诊断的潜在生物标志物。第二部分模拟分析结果:BHG方法识别带状网络、团状网络以及随机网络模拟数据的网络结构能力最高,样本量为50时AUC分别为0.857、0.839以及0.745,样本量为100时分别为0.906、0.910以及0.808。当模拟数据的网络结构为无标度网络时,Hub-BHG方法识别网络结构的AUC超过BHG,分别为0.797、0.835。BHG方法与Hub-BHG方法的F值以及马修斯相关系数均高于其他方法。实例分析结果:血浆和血清两个平台之间的代谢物整合网络相似系数为0.3778,整合网络方法也显示了两平台以及不同阶段的差异性,血浆中三个阶段的代谢物网络的边数、网络密度以及聚类系数等指标均高于血清的代谢物网络。从对照组、早期到晚期血浆的代谢物网络呈连通度上升和密度增大的趋势。主要结论:基于CGBN的贝叶斯网络分类模型在高维代谢组学数据的分类中表现优于其他常用分类方法,尤其在样本量较小时具有较好的分类效果,并且能识别变量间的非线性作用,通过建立疾病相关的局部有向图网络,更加高效地识别与疾病有关的代谢标志物;建立多平台多组代谢组学数据的整合无向图网络,可以有效整合数据,提高多来源网络结构学习的效能,分析网络的动态变化。但由于多来源数据的异质性所导致网络的复杂性,以及代谢物生物学关系的不确定性,本研究探讨方法的实际性能仍需进一步研究。
其他文献
研究背景异烟肼具有很高的杀菌活性,是治疗结核病的核心药物,在预防结核病方面也起着至关重要的作用。可结核病患者对异烟肼单独的耐药性常被忽视,同时我国结核病耐药情况基线调查中显示的患者对异烟肼的高耐药性令人担忧。结核分枝杆菌十分容易产生耐药性,在治疗过程中常需要多种药物联合使用以提高治疗成功率。但绝大多数异烟肼耐药结核病(HR-TB)往往由于未被识别而使用世界卫生组织(WHO)推荐的普通标准方案进行治
地下管廊是现代化城市的重要基础设施,管廊工作井作为连接隧道的重要枢纽,其工作性能对于地下综合管廊的稳定运营有着极大的影响。因为其深埋于土中,结构深度较平面尺寸大,有较为明显的空间效应,同时在使用过程中管廊工作井与土体存在复杂的相互作用问题,受到众多因素的影响,在进行工作井工作性能分析时,如何挑选合理的参数进行结构与土分析模型值得深入研究。本文结合某220k V电缆隧道工程,采用室内模型试验和三维有
研究背景:随着抗病毒治疗的深入普及,艾滋病逐渐转变为一种可控的慢性传染病,HIV感染人群的心理健康问题逐渐成为一个新的公共卫生问题,受到各国学者的广泛关注。抑郁作为HIV感染者最常见的心理症状之一,给HIV感染人群带来了许多严重的负面后果,抑郁不仅会增加个体痛苦的心理体验,降低其生命质量,抑郁患者的高自杀率和致残率也带来了极大的社会影响和极其沉重的社会负担。数据显示,我国HIV感染者抑郁合并患病率
研究背景与目的:糖尿病视网膜病变(Diabetic Retinopathy,DR)是全球劳动年龄(20-74岁)人群视力损害和致盲的主要原因。在中国的糖尿病人群中,DR患病率为18.45%,且农村人口的患病率高于城市。DR的筛查符合世界卫生组织筛查计划的标准:疾病经过可识别的阶段性发展、是重要的公共卫生问题,并且存在有效、可接受的筛查和治疗手段。2018年起,江苏省陆续在苏南、苏北部分地区开展了D
近年来随着复合材料的发展,复合材料蜂窝夹芯结构逐渐取代传统金属蜂窝夹芯结构,越来越多地被用于航空航天结构中。由于复合材料内部结构和失效机理的复杂性,使得分析复合材料蜂窝夹芯结构力学行为的难度远高于传统金属蜂窝夹芯结构。因此,发展复合材料蜂窝夹芯结构的力学行为分析方法具有重要的学术意义和工程价值。本文从复合材料蜂窝夹芯结构等效模型建模方法和静强度分析方法开展了研究,主要研究工作如下:(1)开展了蜂窝
通过工业分析、元素分析和傅里叶红外光谱测试基于循环流化床的新疆准东煤(ZDC)气化灰渣(FA:飞灰;BA:底渣),获得灰渣的基本性质和官能团种类。结果显示,BA的灰分含量高达99.30%,而FA的固定碳和碳元素含量较高,分别为69.3%和73.78%。进一步采用Raman、XRPES和SEM表征ZDC和FA的碳质形式和表面形貌,利用TG-DTG技术考察ZDC和FA的热解、燃烧和气化反应特性。XRP
学位
学位
学位
近年来,工业技术的快速发展,给各类工业废水的处理带来了极大的挑战。目前工业废水的大量排放已经对环境造成了严重的污染,特别是含氰废水,其毒性较大对环境的影响更加深远。含氰废水的来源较为广泛,焦化、医药、化纤、塑料、选矿、电镀、煤气、农业、冶金、金属加工等行业都会产生含氰废水。然而,目前含氰废水的处理情况仍不容乐观,未达标排放的含氰废水影响着环境生态平衡与人类健康。因此,研究开发含氰废水处理方法以解决