高维数据交互作用分析的统计方法研究及其在肺癌全基因组关联研究中的应用

来源 :南京医科大学 | 被引量 : 5次 | 上传用户:sdmaxdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联研究(genome-wide association study, GWAS)从2005年起初露锋芒,至今方兴未艾,成果斐然。然而,目前GWAS所识别的具有主效应的位点仅能解释一小部分遗传变异。复杂疾病由外在环境暴露因素、内在遗传因素相互影响所致。基因组学研究中忽视基因—环境、基因—基因交互作用是导致遗传性缺失(missing heritability)的重要原因之一。GWAS涉及的变量数高达数十万。传统交互作用分析方法受算法复杂程度、软件计算速度等限制,无法在全基因组水平检测交互作用。2007年以来,涌现出一大批针对高维基因组学数据基因—基因交互作用分析的方法。不同方法各有利弊,且缺乏专门快速检测高阶交互作用的方法。本文首先,对多种交互作用分析方法进行系统评价;其次,改进方法,提出新的高阶交互作用分析方法;再次,探索高维数据中高阶交互作用降维分析策略;最后,应用研究所得策略在实际GWAS资料中进行交互作用挖掘。全文结构如下:第Ⅰ部分交互作用分析方法的系统性评价。基于文献综述,系统评价了性能出色、算法典型的10种方法(7种软件),包括:BOOST、BiForce、iLOCi、SIXPAC_D、 SIXPAC_R、 SIXPAC_lod、 SNPRuler、 AntEpiSeeker_pruned、AntEpiSeeker_raw、TEAM。模拟试验一、模拟试验二分别考察各方法检出1对、多对交互作用的性能。BOOST、BiForce两法检测交互作用时一类错误可控,把握度尚可;BOOST与BiForce性能完全相同,提示“先初筛、再检验”是合理的降维分析方式。位点2分类编码的SIXPAC_lod仅在检测多对交互作用时,一类错误膨胀至15%左右,但把握度总是高于BOOST、BiForce。提示样本量较低时,位点可采用2分类编码进行初筛,后续再检验。BOOST、BiForce位点编码方式较SIXPAC_lod更灵活,因此建议实际应用时,视条件灵活应用这两个软件。AntEpiSeeker_raw、TEAM检测无任何效应位点时,一类错误可控;只要位点有主效应或者交互作用,两法均具有较高的把握度,适合过滤噪音位点。模拟试验三显示BOOST、BiForce计算速度快,可在短时间内完成检测工作。第Ⅱ部分基于熵的交互作用分析方法改进。基于信息论(information theory),提出迭代熵交互作用(iterative entropy epistasis, IEE)法,用于检测高阶交互作用,且适应位点不同的连锁不平衡(linkage disequilibrium, LD)结构。从方法学(模拟试验四)、实际应用(模拟试验五)角度,无论检测一阶、高阶交互作用,IEE法一类错误控制能力与对数线性模型相近,但把握度优于后者。此外,IEE法计算速度快于对数线性模型。模拟试验六显示,若进一步降低IEE法迭代收敛精度,可再次提高计算速度。检测一阶、二阶以上交互作用时,IEE法分别在原始迭代次数25%、50%条件下,可维持原始一类错误、把握度水平;分别提高3倍、1倍计算速度。第Ⅲ部分高阶交互作用降维分析策略研究。提出“KSA初筛→IEE再筛→logistic检验, KIL”交互作用降维分析策略。模拟试验七研究显示:不同条件下,KSA法统计量总是不低于IEE法统计量,且计算速度最快,符合快速初筛原则;IEE法速度快于logistic回归,适合高维数据筛选。模拟试验八显示,与单纯应用logistic回归相比,利用KIL策略降维分析,可以控制一类错误,且能够基本维持把握度(平均达到logistic回归效能的92%以上)、减轻计算负担(仅为原始计算量的30%-40%)。第Ⅳ部分肺癌全基因组关联研究数据挖掘。应用研究所得策略,在中国人群肺癌GWAS实际资料中全基因组水平检测交互作用。(1)基因—基因交互作用分析。采用三阶段病例—对照研究设计。第一阶段为GWAS筛选期,第二、三阶段为独立的验证期。总样本量为13,392(6,377例病例、7,015例对照),涉及591,370个位点。GWAS筛选阶段,采用KIL策略获得4对潜在交互作用位点。交互作用位点rs2562796-rs16832404在后续验证中成功。GWAS筛选阶段,其交互作用OR=2.58,95%CI=2.24-2.97, P=1.37×10-39;第一阶段验证,交互作用OR=1.17,95%CI=0.99-1.38, P=6.37×10-2;第二阶段验证,交互作用OR=1.21,95%CI=1.06-1.38, P=4.61×10-3。总样本中,交互作用OR=1.33,95%CI=1.23-1.43, P=1.03×10-13)。按年龄、性别、吸烟等因素分层分析,该交互作用位点在不同亚人群中仍具有统计学意义。基因填补分析显示,位点所在区域附近有成簇交互作用信号。(2)基因—环境交互作用分析。采用两阶段病例—对照设计。样本来源同第(1)节第一、二阶段。共8,440例样本(3,865例病例、4,575例病例)。GWAS筛选阶段获得6个与吸烟存在交互作用的位点,其中rs1316298、rs4589502验证成功。GWAS筛选阶段位点rs1316298、rs4589502与吸烟的交互作用P值分别为4.15×10-5、2.61×10-5。第一阶段验证,交互作用P值分别为8.87×10-4、4.40×10-2。位点rs1316298与吸烟存在拮抗型(antagonistic)交互作用;位点rs4589502与吸烟存在协同型(synergetic)交互作用,总样本中P值分别为6.73×10-6、3.84×10-6。基因填补分析显示,两位点的附近区域有簇的交互作用信号。(3)生物学通路基因富集分析。以生物学通路为功能单位,降维交互作用分析。采用两阶段病例—对照设计。第一阶段为GWAS南京子研究,用于筛选通路,第二阶段为GWAS北京子研究,用于验证通路。共5408例样本(2,331例病例、3,077例对照)。基于KEGG (Kyoto Encyclopedia of Genes and Genomes)、BioCarta通路数据库中368个通路,筛选、验证获得4条生物学通路。总样本中结果分别为:achPathway (P=0.012)、At1rPathway (P=0.022)、metPathway (P=0.010)和rac1Pathway (P=0.005)。敏感性分析显示4条通路关联分析结果较为稳定。保留富集在通路上的基因及其代表性位点。进一步,分别在4条通路内检测基因—基因、基因—吸烟交互作用,获得1对交互作用位点(rs17057065、rs17194885)。交互作用在南京子研究、北京子研究、总样本中P值分别为4.98×10-2、4.42×10-2、4.69×10-3。模拟试验及实例验证共同提示:KIL是行之有效的交互作用降维分析策略。基因、环境之间相互影响,共同导致肺癌风险。本文的主要创新点:(1)系统评价方法。系统评价了10种交互作用分析方法在多种条件下的一类错误、把握度。探索各方法的优缺点及其适用条件,为实际资料分析,提供了方法选择的参考依据。(2)创新筛选方法。创新提出了高阶交互作用分析方法(IEE法)。评价了多种条件下IEE法的统计学性质,以及不同迭代精度对统计学性质的影响。IEE法可作为大规模快速筛选的工具。(3)提出降维策略。提出了KIL高阶交互作用降维分析策略,评价了其合理性及有效性。(4)理论指导应用。在中国人群肺癌GWAS实际资料中,首次进行了全基因组水平的基因—基因、基因—环境交互作用分析及以生物学通路为功能单位的降维交互作用分析,为后续肺癌机制研究提供了统计学证据。
其他文献
语言是人类用来交流的一种手段。从狭义上理解,语言是我们通常用来交流的语音和文字;从广义看,语言还包括肢体、行为、表情以及图形、视频、抽象符号等可以传播信息的媒介。本
目的分析2004—2012年河北省突发食物中毒事件,了解暴发流行状况,探讨流行病学趋势和特征。方法通过突发公共卫生事件管理信息系统收集汇总2004—2012年河北省报告的突发食物
目的:探讨慢性阻塞性肺疾病合并呼吸衰竭患者并发低钠血症的影响因素,寻找最佳的防治措施。方法:回顾性分析2010-2013年本院收治的106例慢性阻塞性肺疾病呼吸衰竭并发低钠血
目的:探讨同侧桡动脉掌浅支皮瓣游离修复手指掌侧皮肤软组织缺损的手术方法和疗效。方法:收治手指掌侧皮肤缺损10例(12指),术中采用同侧桡动脉掌浅支游离皮瓣移植修复创面,供
产品质量安全风险监管己成为新形势下政府监管机构面临的重要课题之一。近年来产品质量安全监管得到了政府和很多学者的关注,进行了大量的研究,并取得了一些有益的成果。就目前
星敏感器是一种高精度姿态敏感测量仪器,它以恒星为参照系,可提供准确的空间方位和基准,并且具有精度高、抗干扰性强、可不依赖其它系统进行独立导航等优点。星敏感器一般用于卫
随着计算机技术、通信技术以及互联网技术的飞速发展,社会信息化进程逐步加快。为满足新的全球范围内的数字化生存与竞争环境下,各国都将城市通卡建设列入了工作日程,建立城
随着3G移动互联网时代的来临和嵌入式硬件设备的不断发展,以Android手机操作系统为代表的移动智能终端设备逐渐成为了人们关注的热点。Android操作系统是基于开源Linux内核开
目的:子宫内膜癌是女性生殖道最常见的恶性肿瘤的,在美国约占妇科癌症的一半,在我国子宫内膜癌的发病率在女性恶性肿瘤中占第四位。近年来国内外研究数据显示子宫内膜癌的发病率