论文部分内容阅读
复杂疾病,又称多因子病,是指受多个基因的控制,尽管会表现出一定的家族聚集倾向性,但并不完全符合孟德尔遗传规律的一类疾病。在遗传机制上,复杂疾病是受多个基因控制的,单个致病基因作用微小,是多个基因之间的复杂交互作用以及基因与环境之间的复杂交互作用共同作用的结果。因此,探索基因-基因交互作用对疾病(或性状)的影响一直是遗传流行病学的核心内容之一。目前,国际上已对一百多种疾病(或表型)进行了GWAS研究,并且已发现了1400多个与这些疾病相关的单核苷酸多态性。这些结果有助于人类理解复杂疾病的遗传机制,对复杂疾病的预防和诊治将提供崭新的技术方法。然而,总结GWAS的经验和教训,发现其成果与预期结果相差甚远,对于特定疾病所发现的与其关联的SNP位点往往只能解释很少一部分遗传变异。出现这种遗传度丢失的原因是多方面的,其中,忽略基因-基因交互作用分析可能是其主要原因之一。复杂疾病表型是受多个基因控制的,而单个致病基因的作用往往十分微小,而多个微效基因之间的交互作用以及它们与环境之间的交互作用往往使其对疾病(或表型)的效应放大。因此,探讨基因-基因交互作用对于提高复杂疾病的遗传解释度,构建复杂疾病的遗传风险评估模型,开发疾病诊疗个性化药物靶点,推进复杂疾病的转化医学和转化公共卫生学进程,最终降低复杂疾病负担等均具有重要的理论和现实意义。目前,用于检测基因-基因交互作用的统计方法概括起来主要有三类:一类是通过分析两基因区域内的两个代表性标记SNP之间的交互作用,间接地反应基因与基因之间的交互作用;第二类是根据单倍域理论推断出各基因区域内的多个标记SNPs组成的单体型(haplotype),然后通过检验两个基因区域内单体型之间的交互作用,以检验两个整体基因之间的交互作用;第三类是以“整体基因(wholegene)"作为一个完整的功能单位,检验“整体基因”之间的交互作用。然而,目前上述方法多数只能用于病例对照设计,即仅适用于二值质量性状的基因-基因交互作用分析,而不适于数量性状。事实上,由于复杂疾病受多个微效基因的控制,而多个微效基因的表型往往是连续的数量性状而非不连续的质量性状。早在上世纪10年代,著名统计遗传学家Fisher就从理论上推导出由多个独立微效基因所控制的性状是服从正态分布的连续数量表型。Plomin等根据大量GWAS的研究结果,于2009年论证了数量遗传学(quantitative genetics)与分子遗传学(moleculargenetics)的辩证统一性,提出了常见疾病数量表型观(thinkingquantitatively to common disorders)的观点。从数量遗传学的观点看,基于病例对照设计策略机械地选择了连续数量表型分布(quantitative distribution)或变异维度(quantitative dimensions)上的2个极端(有病和无病),忽略了其主体部分及其动态变化过程对疾病发生、发展、转归的影响。这样,不仅因病例和对照的选择偏倚或错误分类偏倚等诸多因素降低了统计效能,而且也会削弱GWAS研究成果在复杂疾病诊疗和预防等方面的应用价值。因此,研究基因-基因交互作用对数量性状的效应,己成为近年来统计遗传学领域的热点问题。尽管目前有许多方法试图检测整体基因间的交互作用,但它们只适用于单一数量表型。事实上,复杂疾病的表型往往是错综复杂的,用简单的单一测量指标定义其表型得分往往缺乏代表性。同一表型不仅受多个不同微效基因的影响,同一基因的变异也不只影响到一个表型,往往会同时影响到多个表型。本研究从复杂疾病多数量性状出发,分析两个整体基因(含多个SNP)对多数量性状的交互作用,在偏最小二乘路径模型基础上,对算法进行改进,提出可以检测两整体基因对多数量性状交互作用的U统计量。主要结果:统计模拟和实例验证表明:1)构建的基于PLSPM对多数量性状两整体基因间的交互作用统计量U犯第一类错误的概率稳定在给定的检验水准附近,具有很好的稳定性。2)统计量U的检验效能不仅在给定样本量时随交互效应的增大而增大,而且在给定交互效应量时检验效能随样本量的增大也在增高。3)在给定显著性水准和交互作用效应值时,采用多数量性状的检验效能明显高于采用单一数量性状的检验效能。4)构建的统计量U与基于主成分线性回归方法相比,在相同的条件下,统计量U的检验效能明显高于主成分回归方法的检验效能。5)在实例数据分析中,与主成分回归相比,统计量U也充分地显示出其优越性,能够既快又准地找到有交互作用的基因。主要结论:1、总结了多种基于基因-基因交互作用的统计检验方法,指出复杂疾病数量性状层面上分析整体基因-基因交互作用的必要性,即分析两个整体基因(含多个SNP)对多个数量性状的交互作用。2、以偏最小二乘路径模型为基础,提出两种分析策略,构建了两种多数量性状两整体基因之间交互作用的统计量U。1)与传统的PLSPM相比,U统计量检验效能相当,计算机耗时大大减少,更适合用来检测整体基因间的交互作用。2)与单点的SNP检验相比,提出的U统计量以整体基因为单位,检验两个基因对多数量性状的交互作用,避免了由多重检验带来的假阳性问题。3)与基于主成分回归方法相比,统计量U在内部算法提取潜变量的时候,不仅利用了基因间的信息,也充分利用了数量性状的信息,所以检验效能明显高于主成分回归方法。