论文部分内容阅读
流行病学的任务是研究人群中疾病(或健康状况)的分布及其决定因素,并研究疾病防治及健康促进策略和措施。探讨疾病危险因素进而推断病因是流行病学研究的永恒主题。然而,在当今组学时代,传统流行病学被称为“黑盒子(black box)"流行病学。这种“黑盒子”流行病学方法(附件1中图1A途径①),只能识别出疾病的危险因素,但难以解释人群中危险因素导致疾病发生、发展与转归的致病通路。尽管“黑盒子”流行病学方法已在识别病因及控制疾病方面发挥了巨大作用,但在不明确危险因子导致疾病发生、发展与转归的致病通路或网络的情况下,往往难以有效地预测和评估干预危险因子的效果;甚至往往难以得出令人信服或可重复验证的结论,以致于多年前就遭受到学术界的批评和质疑。为此,长期以来,流行病学家一直在不解努力地寻求机遇,试图打开“黑盒子”,阐明危险因子的致病网络/通路。近年来,基因组学(Genomics)、表观组学(Epigenomics)、转录组学(Transcriptomics)、蛋白组学(Proteomics)和代谢组学(Metabonomics)等各种高通量组学平台技术的发展与成熟,已经实现了将影响疾病发生、发展与转归的全组学(globolomics)分子标记映射到沿DNA→RNA→蛋白质→代谢物→疾病表型这(?)连续统(continuum)上的分子网络中,从而形成了整合系统生物学(Integrative systems biology)的框架[见附件1中图1A③]。在此背景下,随着上述高通量组学技术实验室检测成本的大幅度降低,流行病学家在人群中采用传统方法(如队列研究、病例对照研究等)收集各种暴露因素(如生活习惯、膳食模式、环境污染等)的同时,能够进行多种全组学分子标记的高通量检测与分析,包括基因组→表型组的全基因组关联分析(GWAS)、基因组→转录组的表达QTL作图(eQTL)、基因组→蛋白组QTL作图(pQTL)、基因组→代谢组的全基因组关联分析(mGWAS)、表观基因组→代谢组的全表观基因组关联分析(mEWAS)、基因组→表观基因组的QTL作图(meQTL)和代谢组→表型组的全代谢组关联分析(MWAS)等[附件见图1A③]。这种传统人群流行病学方法与现代高通量组学技术的有机整合,催生了一个崭新的流行病分支学科——系统流行病学(Systems epidemiology) 。为此,本研究提出了系统流行病学的学科内涵和设计框架(见附录1图1):将现代高通量组学技术融入到传统人群流行病学研究中,在暴露因子与疾病终点之间的“黑盒子”覆盖的通路内,检测基因组、表观组、转录组、蛋白组、代谢组或表型组上的生物标记;进而,结合生物信息学网络数据库KEGG (http://www.genome.jp/ke的通路信息,构建“暴露因子→组学生物标记→疾病终点”间的病因通路或病因网络,并比较不同状态下(暴露组VS.非暴露组、疾病组VS.健康组、干预(治疗)组VS.对照组等)通路或者网络间的统计学差异,进而推断危险因子导致疾病发生、发展与转归的通路及其因果效应大小;从而,为进一步实验室验证、药物靶点确定、预防或诊疗措施制定及评估提供科学依据。为了推断“暴露因子→组学生物标记→疾病终点”间的通路效应大小,需要在研究设计和数据分析层面上,解决一系列关键问题。(1)在设计层面上,虽然系统流行病学研究仍可借鉴传统流行病学研究的设计方法(如病例对照研究、队列研究和实验流行病学研究等),但因“暴露因子→组学生物标记→疾病终点”间往往存在复杂的网络调控关系(不仅存在着因果关系,还同时存在大量的非因果关系),使得准确识别因果通路并估计出其因果效应变得十分困难。需要从因果推断理论层面上探讨复杂网络环境下因果效应的推断方法。(2)在组学生物标记筛选层面上,虽然可以采用传统的统计学方法(如卡方检验,t检验,回归模型等)筛选出与疾病终点相关的生物标记,但这些筛选方法本质是关联分析而非标记与疾病终点之间的因果关系。基于筛选出来的关联标记所建“暴露因子→组学生物标记→疾病终点”通路或网络,不仅不能准确反映病因通路反而会混淆病因关系。因此,在筛选组学标记时,应尽量在因果推断理论框架下筛选出与疾病终点具有潜在关系的生物标记才有可能构建相对可靠的“暴露因子→组学生物标记→疾病终点”因果通路和病因网络。(3)在特定“暴露因子→组学生物标记→疾病终点”因果通路(或病因网络)的识别及其效应估计方面,由于通路(或网络)节点之间不仅存在因果关系还存在复杂而广泛的非因果关系,因此,需要去除非因果关系并准确识别因果通路(或因果网络),进而估计通路效应大小。为了解决上述三个方面的问题,本论文进行了如下四个方面的研究工作:论文第一章:首先引入了近年来发展起来的因果图理论,在Judea Pearl提出的因果图模型框架内,概括综述了因果推断的基本理论和因果推断准则。论文第二章:在上述理论框架内,针对系统流行病学研究中最常用的病例对照研究设计,从理论上探讨了传统病例对照研究的匹配设计策略、回归调整策略(非条件logistic回归和条件logistic回归)在网络环境下的行为和效果,从而为网络环境下如何使用匹配设计和回归调整策略提供了理论依据。论文第三章:针对高维组学生物标记筛选问题,基于因果图模型的马尔科夫毯(Markov Blanket),提出了组学标记筛选的重复钓鱼策略(MB-based Repeated-fishing strategy, MBRFS),构建了筛选与疾病终点具有潜在因果关系的组学标记的新方法,为进一步构建组学生物标记→疾病终点之间的因果通路(或网络)提供了潜在的因果证据。论文第四章:针对系统流行病学致病通路(或网络)的识别及因果效应估计问题,仿照上游河流汇集是造成下游河水增加的水文因果关系,提出了“暴露因子→组学生物标记→疾病终点”因果通路识别及其效应估计的因果图模型及其因果识别与效应估计的统计量,为系统流行病学致病通路识别及其效应估计提供了新方法。一、因果推断的图模型理论及因果推断准则(第一章)首先引入了近年来发展起来的因果图理论,在Judea Pearl提出的因果图模型框架内,概括综述了因果推断的基本理论和因果推断准则。(1)因果图模型主要包括三个元素:变量,也称节点或者顶点;箭头(有向边或弧),也就是两个变量的直接因果关系;缺失的箭头,即两个变量没有直接因果关系。因果图是非参的,它对图中变量的分布和变量间的函数关系不作任何假设。而且,它是一种有向无环图,即将来的变量不能直接或间接地影响过去的变量。(2)路是一系列不重合的相邻边所组成的,值得注意的是,路并不关心边的方向,其次路不能重复经过一个节点。路主要分为三类:因果路(E→C→D)、混杂路(E→C→D)和碰撞路(E→C←D);其中因果路和混杂路属于开路(即可以产生变量之间的相关关系),而碰撞路属于闭路(即不能贡献于变量之间的相关强弱)。对因果路上的变量(中介变量)施加条件会阻断因果路造成过度调整偏倚;对混杂路上的变量(混杂)施加条件会阻断混杂路,进而得到因果效应;相反,对碰撞路上的变量(碰撞节点)施加条件会打开碰撞路,从而造成选择性偏倚。(3)有向分割准则(d-separation)是连接因果关系和统计相关的重要桥梁。通过它我们可以很容易地识别变量之间是否相关或者独立。有向分割准则的具体内容如下:通过对Z施加条件后,我们称一条路P是被有向分割的,如果1)如果Z包含在一条混杂路或者因果路中;2)Z或者Z的后代节点并不在施加变量集里面。一条路P我们如果对Z施加条件它不是有向连接的,那么我们称这条路为有向连接的(d-connected).(4)Judea Pearl提出了因果作用计算的do算子,主要包括三个准则:1)观察的插入和删除准则,即如果(Y⊥Z|x,w)Gx那么P(y|do(x),z,w)=:P(y |d0(x),w);干预和观察的交换准则,如果(Y(?)Z|X,W)GXZ那么满足P(y | do(x),do(z),w)=P(y | do(x),z,w);3)干预的插入和删除准则,即如果满足(Y(?)Z|X,W)GXZ(W)则P(y I do(x),do(z),w)=P(y | do(x),w).其中X,Y,Z和W是因果图中没有任何交集的变量集,GX指的是去掉所有指向X的边,Gx表示去掉所以从X发出去的边。(5)后门准则主要基于混杂路来定义的,在估计从X到Y的因果作用时,我们将连接从X到Y并指向X的所有非因果路称为后门路;关闭所有的后门路就可以识别X对Y的因果效应P(y|z)=∑xP(y|x,z)P(x|z).(6)前门准则则是基于从X到Y的因果路定义的,主要应用于当存在不可观测的混杂时。它是后门准则的拓展,也称为两步后门准则P(y |x)=∑zP(z|x)∑x.P(y|x)P(x’).(7)工具变量G是在存在观察不到的混杂U时估计X对Y因果效应的方法,它必须满足三个条件:1)G上U;2)G导到X或者和X有强相关;3)G(?)Y|X,U.此时rGY/rGX用来估计X对Y的因果效应。(8)一个变量T的马尔可夫毯MB(T)被定义为满足下列条件的最小集合:给定T的马尔可夫毯的所以变量,T和其他的所有变量都是条件独立的。二、基于因果推断的匹配策略与回归策略的理论方法研究(第二章)在系统流行病学研究中,推断暴露→组学标记、组学标记→组学标记、组学标记→疾病终点等各个环节的因果关系是识别暴露因子致病通路及其因果效应估计的核心。尽管在病因网络中,暴露因子、组学标记和疾病终点呈现出错综复杂的网络关系,但推断任何复杂因果网络节点之间的因果关系均可简化和缩减为三个节点之间三种核心关系:因果路(E→C→D)、混杂路(E→C→D)和碰撞路(E→C→D)。在推断暴露E对D的因果效应时,若对节点C施加条件(匹配或回归调整)则对因果路(E→C→D)和碰撞路(E→C←D)会造成过度调整,从而歪曲因果关系;而对混杂路(E←C→D)则可以消除混杂作用,从而能够准确推断E对D的因果效应。然而,对于复杂的病因网络中的任意三个节点而言,毕竟不仅仅包含上述三种关系,从因果拓扑结构上存在27中关系。为此,本研究首先定义了病因网络中的如下9种关系情形:a)C是暴露E和疾病D的混杂;b)C是暴露E和疾病D的共同原因并且E对D没有因果作用;c)C是疾病D的独立病因;d)C是E的原因但是对D没有直接因果作用;e)C是E和D的共同子节点;f)C是D的子节点;g)C是E的子节点;h)C是从E到D因果路上的中间环节;i)C是一个工具变量。进而,在Judea Pearl的因果图理论框架下,采用do-算子(do-caculus)和后门准则(back-door criterion)计算E→D的真实因果效应(β);以此作为金标准,从理论推导和统计模拟两个层面上,考察对C施加条件(包括匹配策略和回归调整策略)后,对估计E→D的真实因果效应(β)的偏倚(β1-β)和精度(SE(β1))的影响;从而,概括总结出系统流行病学研究中,使用匹配策略和回归调整策略的正确方法。主要结果:(1)当C为混杂(情形a)时,在传统分析流行病学研究中,认为匹配病例对照研究可以有效提高精度(即SE(β1)),而且可以降低偏倚(β1-β)。然而本研究经理论推导证明,匹配C对精度没有明显的提升;同时,也不能完全消除偏倚。在匹配后仍然需要采用条件logistic回归模型或非条件logistic回归模型对C进行调整,但以非条件logistic回归模型(log it(p(D=1| E,C))=β0+β+"E+β2C)调整的精度最高。(2)当C与E或者D相关但又不是一个混杂因素(包括情形b,情形c,情形d,情形e,情形g,情形h)时,理论推导和统计模拟均证明:对C进行匹配、以及采用条件logistic回归模型或非条件logistic回归模型对C进行调整,均可造成额外的偏倚,从而歪曲E→D的真实因果效应。(3)当C不是一个混杂而是D的结果(情形f),对C进行匹配或采用条件logistic回归模型及非条件logistic回归模型对C调整均是没必要的。不仅如此,还能降低E-→D的因果效应估计精度。(4)当C是一个工具变量(情形i)时,对C进行匹配或采用条件logistic回归模型及非条件logistic回归模型进行调整均不能减少偏倚,这主要是由于观测不到的混杂U的存在。结论:在系统流行病学网络环境下,研究暴露(E)对疾病终点(D)的因果效应,必须统筹考虑网络中其它众多因素(C1,C2,C3,…,Cn)与E和D的关系;在此基础上根据上述理论推导及统计模拟结果,科学合理地使用匹配策略和回归调整策略,方可准确地、精确地估计E→D的因果效应。否则,任意武断地使用匹配和回归策略,势必损失准确性和精确性。主要创新点:针对系统流行病学中病例对照研究设计,在因果图理论框架下,通过理论推导和统计模拟阐明了在推断暴露(E)对疾病终点(D)的因果效应时,使用匹配策略和回归调整策略处理病因网络中其它变量(C)的因果推断规则。三、基于条件独立准则的组学生物标记筛选策略(第三章)在系统流行病学研究中,识别“暴露因子(E)→组学生物标记(M)→疾病终点(D)”因果通路(或病因网络)的前提是,筛选出与疾病终点(D)具有潜在因果关系的组学生物标记(M)。然而,在传统的组学数据分析(GWAS, MGWAS等)中,多采用统计检验策略(t检验、卡方检验、logistic回归模型等)或机器学习的变量选择策略(LASSO, SVM, Random Forest等);这些方法均是建立在关联分析基础上的关联研究,而非因果检验研究。因而,不可避免地会出现过多的假阳性、假阴性和假因果,从而误导后续因果路或者病因网的构建。为此,本研究针对高维组学生物标记筛选问题,基于因果图理论的马尔科夫毯(Markov Blanket)条件独立准则,提出了组学标记筛选的重复钓鱼策略(MB-based Repeated-fishing strategy, MBRFS)构建了筛选与疾病终点具有潜在因果关系的组学标记的新方法,为进一步构建组学生物标记→疾病终点之间的因果通路(或网络)提供了潜在的因果证据。主要结果:(1)针对传统马尔科夫毯算法(KS算法、GS算法、IAMB算法、MMMB、 HITON-MB, DASSO-MB和FEPI-MB算法等)在处理高维组学数据中的缺陷,本研究提出了组学标记筛选的重复钓鱼策略和算法(MBRFS):1)通过卡方检验,以0.05的检验水准对组学数据进行变量初筛。该策略大大提高了运算速度,并且尽可能的搜索了与表型有关的标志物;2)在G2检验中,为了减少列联表的空格子数目,我们提出了一种新的马尔可夫毯的条件独立准则,以控制在高维组学变量环境下的空格子数目;3)设计了重复钓鱼策略,从而更进一步有效地减少了列联表的空格子数目,显著提高了G2检验的检验效能。(2)基于功能基因组学中的“gain of function"研究策略,创建了模拟基因组数据的研究策略。设计了四种不同情形的模拟基因组数据:1)将多个独立的与疾病表型有因果关系的组学标记物随机插入到基因组中,从而产生相互独立组学标记的模拟基因组数据;2)将多个具有相关性且与疾病表型有因果关系的组学标记随机插入到基因组中,从而产生了非独立组学标志的模拟基因组数据:3)在基因组连锁不平衡环境中,随机选择并设计多个与疾病表型有因果关系的组学标记,从而产生了具有自然LD结构的模拟基因组数据。(3)统计模拟表明,与传统方法(test with Bonferroni or B-H adjustment, LASSO, DASSO-MB)相比,MBRFS具有以下优势:1)在原假设成立的情况下,我们提出的MBRFS算法在上述三种模拟情景下的真阳性发现率(TDR)接近于0。2)遍历不同的效应强度(OR)和最小等位基因频率(MAF), MBRFS表现出最好的筛选效果。3)更重要的是,由于MBRFS策略使用了重复钓鱼策略,能有效地捕捉到Bonferroni矫正漏掉的效应小的,但与疾病表型有潜在因果关系的组学标记。(4)使用我们创建的MBRFS算法,分析GWAS数据(706个麻风病患者和514个健康对照的491,883个SNPs)、乳腺癌的基因表达数据(20 Infiltrating Ductal carcinoma patients and 22 Infiltrating Lobular carcinoma patients)和甲基化数据(20Infiltrating Ductal carcinoma patients and 22 Infiltrating Lobular carcinoma patients)和关于精神分裂症的代谢组数据(58 case and 71 controls),结果表明,我们提出的MBRFS算法优于其他算法结论:我们提出的MBRFS算法,适合于系统流行病学研究中筛选与疾病表型有潜在因果关系的组学标记;它能够在真实自然的组学数据环境中,准确地识别出与疾病表型有潜在因果关系的组学标记。主要创新点:针对高维组学生物标记筛选问题,基于因果图理论的马尔科夫毯(Markov Blanket)条件独立准则,提出了组学标记筛选的重复钓鱼策略(MB-based Repeated-fishing strategy, MBRFS),构建了筛选与疾病终点具有潜在因果关系的组学标记的新方法,为进一步构建组学生物标记→疾病终点之间的因果通路(或网络)提供了潜在的因果证据。四、基于因果推断的致病通路识别及其效应估计模型研究(第四章)系统流行病学研究的核心是,借助组学标记打开暴露(E)与疾病终点(D)之间的黑盒子,阐明暴露因素(E)导致疾病(D)的致病通路及其效应大小。为此,需要从复杂的系统流行病学致病网络中识别出特定的“暴露因子→组学生物标记→疾病终点”因果通路(或病因网络)并准确估计其因果效应大小。然而,通路(或网络)节点之间往往不仅存在因果关系还存在复杂而广泛的非因果关系,因此,需要去除非因果关系并准确识别因果通路(或因果网络),进而估计通路效应大小。为此,以Judea Pearl提出的因果推断的do算子为理论基础,本研究仿照上游河流汇集是造成下游河水增加的水文因果关系,提出了“暴露因子→组学生物标记→疾病终点”因果通路识别及其效应估计的因果图模型,定义了因果通路识别及其效应估计的统计量(PSEM),从而为系统流行病学致病通路识别及其效应估计提供了新方法。主要结果:(1)针对复杂致病网络中的特定因果路,基于因果图理论,提出了从复杂致病网络中简化和抽提特定致病网络的5种新准则。在复杂致病网络中,对于与致病通路(E→M1→M2→M3→…→D)有邻接关系的节点,根据其与致病通路的上、下游邻接关系,定义了5种邻接路及其处理方式:1)对于单向汇流路(single conflux path),在估计E→M1→M2→M3→…→D的效应时,需要按照do算子算法对其调整;2)对于单向分流路(single diffluent path),在估计E→M1→M2→M3→…→D的效应时,不需要对其调整;3)对于从致病通路中分流出的两个条路汇聚成的碰撞路(collider path by two diffluents),绝不能对其碰撞节点施加任何条件而予以调整,否则会增加因果效应的选择性偏倚;4)对于有两个具有共同父节点、汇流于致病通路而成的混杂路(confounding path by two conflux)则需要对其混杂节点进行调整,否则会使因果估计产生偏倚;5)对于由致病通路分流而出、进而通过中介节点而再汇流入致病通路的中介路(mediator path by diffluent and conflux),则需要计算其控制性直接作用。(2)在识别复杂致病网络中的特定致病通路(E→M1→M2→M3→…→D)时,针对其不可识别性,本研究提出了分段连乘因果效应统计量计算公式(PSE=Πi=1kARi=AR1·AR2,…,ARk),从而有效地解决了系统流行病学复杂致病网络中,计算特定致病通路因果效应的不可识别性。(3)定义了识别和检验致病通路(E→M1→M2→M3→…→D)的统计量(StatistiCPSE),该统计量不仅能够通过显著性检验识别致病通路,而且还能同时估计致病通路的绝对因果效应;为了在系统流行病学复杂网络中,比较多条致病通路的致病效应大小,本研究又定义了致病通路的标化绝对效应量度(ARsPSE)和相对效应统计量(RRsPSE)。从而,建立了完备的致病通路识别及其效应估计的定量方法。(4)统计模拟结果表明:基于上述统计量的Permutation test表现出良好的稳定性和较高的检验效能,可用于在复杂致病网络中识别特定致病通路,并比较致病通路的效应大小。(5)基于Bogalusa心血管病队列研究,借助表观组学标记数据,分析了吸烟如何通过胰岛素代谢通路影响血糖代谢而导致糖尿病的治病路径。成功地识别出了一条最显著的致病通路:Smoking-->SOCS-->INSR-->IRS-->PI3K--> FOXO1--> G6PC--> Glucose。结论:所构建的基于因果推断do算子的致病通路识别及其效应估计模型,不仅有效的识别出复杂致病网络中的特定致病通路,而且能同时估计其效应大小并比较不同致病通路的效应大小。主要创新点:以Judea Pearl提出的因果推断的do算子为理论基础,仿照上游河流汇集是造成下游河水增加的水文因果关系,提出了“暴露因子→组学生物标记→疾病终点”因果通路识别及其效应估计的因果图模型,定义了因果通路识别及其效应估计的统计量(PSEM),从而为系统流行病学致病通路识别及其效应估计提供了新方法。