论文部分内容阅读
全基因组关联研究(genome-wide association study, GWAS)从2005年起初露锋芒,至今方兴未艾,成果斐然。然而,目前GWAS所识别的具有主效应的位点仅能解释一小部分遗传变异。复杂疾病由外在环境暴露因素、内在遗传因素相互影响所致。基因组学研究中忽视基因—环境、基因—基因交互作用是导致遗传性缺失(missing heritability)的重要原因之一。GWAS涉及的变量数高达数十万。传统交互作用分析方法受算法复杂程度、软件计算速度等限制,无法在全基因组水平检测交互作用。2007年以来,涌现出一大批针对高维基因组学数据基因—基因交互作用分析的方法。不同方法各有利弊,且缺乏专门快速检测高阶交互作用的方法。本文首先,对多种交互作用分析方法进行系统评价;其次,改进方法,提出新的高阶交互作用分析方法;再次,探索高维数据中高阶交互作用降维分析策略;最后,应用研究所得策略在实际GWAS资料中进行交互作用挖掘。全文结构如下:第Ⅰ部分交互作用分析方法的系统性评价。基于文献综述,系统评价了性能出色、算法典型的10种方法(7种软件),包括:BOOST、BiForce、iLOCi、SIXPAC_D、 SIXPAC_R、 SIXPAC_lod、 SNPRuler、 AntEpiSeeker_pruned、AntEpiSeeker_raw、TEAM。模拟试验一、模拟试验二分别考察各方法检出1对、多对交互作用的性能。BOOST、BiForce两法检测交互作用时一类错误可控,把握度尚可;BOOST与BiForce性能完全相同,提示“先初筛、再检验”是合理的降维分析方式。位点2分类编码的SIXPAC_lod仅在检测多对交互作用时,一类错误膨胀至15%左右,但把握度总是高于BOOST、BiForce。提示样本量较低时,位点可采用2分类编码进行初筛,后续再检验。BOOST、BiForce位点编码方式较SIXPAC_lod更灵活,因此建议实际应用时,视条件灵活应用这两个软件。AntEpiSeeker_raw、TEAM检测无任何效应位点时,一类错误可控;只要位点有主效应或者交互作用,两法均具有较高的把握度,适合过滤噪音位点。模拟试验三显示BOOST、BiForce计算速度快,可在短时间内完成检测工作。第Ⅱ部分基于熵的交互作用分析方法改进。基于信息论(information theory),提出迭代熵交互作用(iterative entropy epistasis, IEE)法,用于检测高阶交互作用,且适应位点不同的连锁不平衡(linkage disequilibrium, LD)结构。从方法学(模拟试验四)、实际应用(模拟试验五)角度,无论检测一阶、高阶交互作用,IEE法一类错误控制能力与对数线性模型相近,但把握度优于后者。此外,IEE法计算速度快于对数线性模型。模拟试验六显示,若进一步降低IEE法迭代收敛精度,可再次提高计算速度。检测一阶、二阶以上交互作用时,IEE法分别在原始迭代次数25%、50%条件下,可维持原始一类错误、把握度水平;分别提高3倍、1倍计算速度。第Ⅲ部分高阶交互作用降维分析策略研究。提出“KSA初筛→IEE再筛→logistic检验, KIL”交互作用降维分析策略。模拟试验七研究显示:不同条件下,KSA法统计量总是不低于IEE法统计量,且计算速度最快,符合快速初筛原则;IEE法速度快于logistic回归,适合高维数据筛选。模拟试验八显示,与单纯应用logistic回归相比,利用KIL策略降维分析,可以控制一类错误,且能够基本维持把握度(平均达到logistic回归效能的92%以上)、减轻计算负担(仅为原始计算量的30%-40%)。第Ⅳ部分肺癌全基因组关联研究数据挖掘。应用研究所得策略,在中国人群肺癌GWAS实际资料中全基因组水平检测交互作用。(1)基因—基因交互作用分析。采用三阶段病例—对照研究设计。第一阶段为GWAS筛选期,第二、三阶段为独立的验证期。总样本量为13,392(6,377例病例、7,015例对照),涉及591,370个位点。GWAS筛选阶段,采用KIL策略获得4对潜在交互作用位点。交互作用位点rs2562796-rs16832404在后续验证中成功。GWAS筛选阶段,其交互作用OR=2.58,95%CI=2.24-2.97, P=1.37×10-39;第一阶段验证,交互作用OR=1.17,95%CI=0.99-1.38, P=6.37×10-2;第二阶段验证,交互作用OR=1.21,95%CI=1.06-1.38, P=4.61×10-3。总样本中,交互作用OR=1.33,95%CI=1.23-1.43, P=1.03×10-13)。按年龄、性别、吸烟等因素分层分析,该交互作用位点在不同亚人群中仍具有统计学意义。基因填补分析显示,位点所在区域附近有成簇交互作用信号。(2)基因—环境交互作用分析。采用两阶段病例—对照设计。样本来源同第(1)节第一、二阶段。共8,440例样本(3,865例病例、4,575例病例)。GWAS筛选阶段获得6个与吸烟存在交互作用的位点,其中rs1316298、rs4589502验证成功。GWAS筛选阶段位点rs1316298、rs4589502与吸烟的交互作用P值分别为4.15×10-5、2.61×10-5。第一阶段验证,交互作用P值分别为8.87×10-4、4.40×10-2。位点rs1316298与吸烟存在拮抗型(antagonistic)交互作用;位点rs4589502与吸烟存在协同型(synergetic)交互作用,总样本中P值分别为6.73×10-6、3.84×10-6。基因填补分析显示,两位点的附近区域有簇的交互作用信号。(3)生物学通路基因富集分析。以生物学通路为功能单位,降维交互作用分析。采用两阶段病例—对照设计。第一阶段为GWAS南京子研究,用于筛选通路,第二阶段为GWAS北京子研究,用于验证通路。共5408例样本(2,331例病例、3,077例对照)。基于KEGG (Kyoto Encyclopedia of Genes and Genomes)、BioCarta通路数据库中368个通路,筛选、验证获得4条生物学通路。总样本中结果分别为:achPathway (P=0.012)、At1rPathway (P=0.022)、metPathway (P=0.010)和rac1Pathway (P=0.005)。敏感性分析显示4条通路关联分析结果较为稳定。保留富集在通路上的基因及其代表性位点。进一步,分别在4条通路内检测基因—基因、基因—吸烟交互作用,获得1对交互作用位点(rs17057065、rs17194885)。交互作用在南京子研究、北京子研究、总样本中P值分别为4.98×10-2、4.42×10-2、4.69×10-3。模拟试验及实例验证共同提示:KIL是行之有效的交互作用降维分析策略。基因、环境之间相互影响,共同导致肺癌风险。本文的主要创新点:(1)系统评价方法。系统评价了10种交互作用分析方法在多种条件下的一类错误、把握度。探索各方法的优缺点及其适用条件,为实际资料分析,提供了方法选择的参考依据。(2)创新筛选方法。创新提出了高阶交互作用分析方法(IEE法)。评价了多种条件下IEE法的统计学性质,以及不同迭代精度对统计学性质的影响。IEE法可作为大规模快速筛选的工具。(3)提出降维策略。提出了KIL高阶交互作用降维分析策略,评价了其合理性及有效性。(4)理论指导应用。在中国人群肺癌GWAS实际资料中,首次进行了全基因组水平的基因—基因、基因—环境交互作用分析及以生物学通路为功能单位的降维交互作用分析,为后续肺癌机制研究提供了统计学证据。