汇总数据全转录组关联分析中连锁不平衡矩阵估计方法比较研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:zdf657094142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:全转录组关联研究(transcriptome-wide association study,TWAS)旨在整合全基因组关联研究(genome-wide association study,GWAS)和表达数量性状位点(expression quantitative trait loci,eQTL)研究的关联结果,以探讨基因表达与复杂性状之间的关系。随着大量汇总数据(summary data)的公开发布,基于汇总数据的TWAS分析方法越来越受到重视。然而,基于汇总数据的TWAS分析方法需借助外部参考面板数据对GWAS样本人群的连锁不平衡矩阵(linkage disequilibrium matrix,LD matrix)进行估计。由于人群不匹配引入统计噪声、LD参考面板样本量小估计精度不够、矩阵不可逆等诸多问题,给基于汇总数据的TWAS分析带来了挑战。针对这些问题,当前TWAS分析首先从LD参考面板数据中计算得到LD matrix,进而对该矩阵进行正则化或近似,以保证其数值稳定性。当前尚未有研究系统评价与比较不同LD matrix估计方法在TWAS分析中的表现。目的:使用基于汇总数据的TWAS分析方法,依托千人基因组(1000 Genomes Project)参考面板,系统评价来自千人基因组的LD matrix以及使用不同LD matrix正则化方法对TWAS统计推断的影响,以期指导基于汇总数据TWAS分析中LD matrix估计方法的选择,确保TWAS分析的科学性和合理性。方法:基于当前针对汇总数据的5种常用TWAS分析方法,包括PrediXcan、TWAS、DPR、LDA MR-Egger和PMR-Egger,使用四种不同的LD matrix估计方法:①由千人基因组数据计算得出的经验相关矩阵Σref;②ΣA=λΣref+(1-λ)I;③ΣB=Σref+λI;④(?);其中,λ为压缩参数,I为单位矩阵。通过基于实际数据的统计模拟实验与实例分析,评价不同LD matrix估计方法对基于汇总数据的TWAS方法统计推断的影响。本研究所使用的数据均来自于公共数据库,其中,基因表达数据集来自GEUVADIS研究,GWAS数据集来自UK Biobank,LD参考面板数据来自千人基因组,均来源于欧洲人群。1.统计模拟实验时,使用上述三个数据集,随机选择10,000个基因,以基因顺式区域内所有遗传变异位点作为其顺式SNPs(cis-SNPs),使用真实基因型数据模拟生成基因表达数据和表型数据,根据TWAS分析流程,将来自千人基因组及通过三种不同方法估计的 LD matrix 分别代入 PrediXcan、TWAS、DPR、LDA MR-Egger 和 PMR-Egger五种TWAS分析方法中,并与使用由GWAS样本个体基因型数据计算得到的金标准LD matrix时进行比较,分别在不同基因表达遗传度、不同基因表达遗传结构(稀疏效应假定或多基因效应假定)、是否存在水平多效性、是否存在因果效应等模拟情形下,全面考察因果效应和水平多效性效应的一类错误和检验效能,通过模拟实验评价不同LD matrix估计方法对TWAS统计推断的影响。2.实际数据TWAS分析使用UK Biobank中血脂四项的GWAS数据,包括总胆固醇(total cholesterol,TC)、高密度脂蛋白胆固醇(high density lipoprotein cholesterol,HDL)、低密度脂蛋白胆固醇(lowdensitylipoproteincholesterol,LDL)和甘油三酯(triglyceride,TG)。考虑基于不同建模假设的TWAS方法在捕获潜在基因表达遗传结构特征方面性能不同,针对不同TWAS方法使用不同LD matrix估计方法时识别出的所有与特定血脂性状相关的基因,使用Metascape进行GO和KEGG富集分析,以识别与血脂性状相关基因富集的生物学通路,检验分析结果的合理性和稳健性。结果:1.统计模拟实验中,对于PrediXcan、TWAS、DPR这三种基于传统两阶段分析策略的TWAS方法,在不存在水平多效性且满足多基因效应假定时表现较好。与使用金标准LD matrix相比,使用Σref、ΣA、ΣB、ΣC四种不同LD matrix估计方法时,这三种方法均能控制因果效应检验的一类错误,且检验效能相当。特别地,使用ΣA和ΣC时,这三种方法的一类错误随着压缩参数所表征的压缩程度增大而逐渐膨胀,使用ΣB时,其随着参数λ增大而趋于保守,但未观察到检验效能随参数λ变化的明显趋势。当存在较大水平多效性时,无论使用金标准LD matrix还是四种不同LDmatrix估计方法,这三种方法检验因果效应的一类错误均明显膨胀,并且检验效能较低。与使用金标准LD matrix相比,使用Σref、ΣA、ΣB、ΣC时,LDAMR-Egger和PMR-Egger检验因果效应及检验水平多效性的一类错误均出现膨胀趋势。对于LDAMR-Egger,在因果效应检验的一类错误控制上,使用ΣC使用ΣA和ΣB膨胀更明显,相反地,在水平多效性效应检验的一类错误上,使用ΣA和ΣB比使用ΣC膨胀更明显。LDAMR-Egger检验因果效应及水平多效性的检验效能均较低,未观察到其检验效能随参数λ变化的明显趋势。对于PMR-Egger,使用ΣC与使用Σref相比,一类错误膨胀趋势有所缓解,而使用ΣA、ΣB、ΣC时其检验因果效应的一类错误均随着参数λ所表征的压缩程度增大而膨胀;使用ΣC时,PMR-Egger对因果效应和水平多效性的检验效能相对稳定。2.血脂四项性状的TWAS实际数据分析中,不同TWAS方法在使用不同LD matrix估计策略时,共识别出320、486、266、419个分别与TC、HDL、LDL、TG显著相关的基因,富集分析结果显示,这些基因均显著富集在与血脂代谢明显相关的GO及KEGG通路上(如胆固醇运输、胆固醇代谢过程),此外,与先前研究一致,与TG相关的基因在神经退行性疾病通路上也呈现出显著富集,从一定程度上说明了不同TWAS分析方法在使用不同LD matrix估计下的分析结果的稳健性。结论:使用来自千人基因组以及不同LD matrix估计的正则化方法时,对于基于汇总数据的不同TWAS统计方法的影响各有不同,并且该影响趋势与不同TWAS分析方法原理、不同LD matrix估计方法的特点、以及不同模拟情形设置等密切相关。1.传统两阶段的TWAS分析方法PrediXcan、TWAS及DPR将LD matrix用于第二阶段构建基因-性状间关系的检验统计量,且不涉及矩阵求逆等运算,因此,使用不同LD matrix估计方法时,对于TWAS统计推断的影响较小,直接使用来自千人基因组的LD matrix时也具有良好的表现,但是当存在水平多效性效应或违背多基因效应假定时,应注意控制这三种方法的假阳性发现。2.LDA MR-Egger和PMR-Egger方法均考虑了生物学中广泛存在的水平多效性效应,增加了统计推断的复杂性,这决定了二者在使用汇总数据进行推断时,需要将LD matrix用于其推断中的多个步骤。由于LD参考面板数据样本量较小,致使估计精度不够,并且矩阵求逆等运算会加剧其数值不稳定性,来自千人基因组面板数据的LD matrix与GWAS样本人群的LD结构间存在的潜在差异也可能被随之放大,从而对TWAS统计推断造成较大的影响。对于这两种能够同时估计并检验因果效应及水平多效性效应的方法,综合来看,PMR-Egger方法表现更好,但应注意控制假阳性。3.基于血脂四项的TWAS实际数据分析发现,不同TWAS方法使用不同LD matrix时识别出的与血脂相关的显著基因均在其相关生物学通路上具有良好的富集,提示基于不同建模假设的TWAS方法在实际数据分析时可相互补充,提供良好的生物学信息。
其他文献
研究背景近年来,高尿酸血症(Hyperuricemia,HUA)患病人群不断扩大,已引起人们的广泛关注。在20世纪年代初,我国成年居民HUA患病率约为1.3%。而2015年中国居民营养状况变迁队列数据显示,成年居民HUA患病率已高达9.8%。由于HUA患儿多无明显的临床症状,因此儿童HUA往往容易被忽视。基于山东省城乡3609名6~17岁中小学生进行的调查显示,该地区儿童青少年HUA患病率为17.
学位
背景肠道病毒(EVs)为单股正链RNA病毒,是小RNA病毒目(Picornavirales)小RNA病毒科(Picornaviridae)肠道病毒属的成员。1999年,Oberste等首次提出基于VP1区序列的EV分子生物学定型方法,截至目前能够感染人类的EVs有116个血清型,属于Enterovirus A~Enterovirus D4个种。EV以隐性感染为主,严重可导致急性弛缓性麻痹(AFP)
学位
2019年底以来,新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)疫情席卷全球,感染性废物的数量急剧增加,对人们的健康和疫情防控构成严重威胁。对感染性废物进行安全、及时、专业的处置,是确保不发生二次传播、阻断疫情扩散的重要环节。COVID-19疫情给感染性废物的处理带来了许多挑战,比如数量剧增、运输中出现破损泄漏、风险区域及人员管控等。因此,需要加强对感染性
学位
良好的内控管理是商业银行长期健康发展的基石,也是商业银行的核心竞争力。顺应数字经济和科技创新发展趋势,推进内控、合规、案防和操作风险一体化管理与数字化转型,是很多商业银行正在推进的一项重要工程。本文从商业银行内控、合规、操作风险、案防的内涵、渊源分析入手,研究了四者之间的关系。结合商业银行实践,对内控一体化管理的趋势与可行性进行了深入分析,提出了内控、合规、操作风险管理、案防多体系有机融合的顶层设
期刊
背景:发热伴血小板减少综合征(Severe fever with thrombocytopenia syndrome,SFTS)是由新型布尼亚病毒引起的自然疫源性疾病。该病在世界范围内广泛分布,主要集中在亚洲地区。中国为世界上累积报告病例最多的国家,山东省作为该病的高发区域之一,截至2018年,山东省确诊病例数位居全国第2位,提示SFTS已成为山东省需重点关注的公共卫生问题之一。蜱是该病的主要传播
学位
研究目的酒精性肝病(alcoholic liver disease,ALD)的发病率逐年增加,但仍然缺乏有效的防治药物。二烯丙基二硫(diallyldisulfide,DADS)是一种来源于大蒜的有机硫化物。已有研究发现DADS能缓解酒精诱导的氧化应激和肝脏中脂肪累积,但其发挥作用的分子机制仍待阐明。本研究拟探讨DADS对小鼠ALD的拮抗作用,并围绕“肠-肝轴”和核转录因子 E2 相关因子(nuc
学位
目的:初步探究4’,5,7-三羟基黄酮对大鼠牙移动和正畸导致的炎症性牙根吸收的影响,以及对骨代谢的影响。方法:1.采用30只8周wistar雄鼠,饲养七天后,将其随机分成三组,即60 mg/kg高浓度组、10 mg/kg低浓度组和对照组。建模方法:在门牙上结扎镍钛拉簧加力牵拉第一磨牙移位,施加50 g机械力。2.建立大鼠正畸牙移动模型的当天,高、低浓度组分别腹腔注射60 mg/kg和10 mg/k
学位
近年来,由于环境污染加剧、烟草暴露以及职业暴露等因素,肺癌的发病率和死亡率都逐年显著上升,在全球范围内均处于较高的位置。肺的腺癌作为肺癌最主要的一种病理类型,致死率高、预后差,因此如何更有效地早期诊断肺腺癌一直是临床关注热点。当前手术是治愈NSCLC的最有用方式,但是仅有约30%的NSCLC患者在初诊时具有手术机遇。传统的放、化疗等治疗手段使肺癌的疾病缓解率提高了很多,但是整体肺癌人群的5年生存率
学位
目的:了解济南护理职业学院护理专业维吾尔族和汉族女大学生原发性痛经流行现状,研究分析维吾尔族和汉族女大学生原发性痛经的发生情况及相关因素,对两个民族女大学生针对原发性痛经进行自行干预治疗做回顾性分析,并针对不同民族的在校女大学生痛经提出有效合理的干预措施,为高校展开健康教育、防治原发性痛经提供科学依据。研究方法:在济南护理职业学院采用分层整群抽样的方法,选取高校在读的护理专业维吾尔族和汉族女大学生
学位
过渡金属(Ni、Fe、Co、Mn等)及其化合物在电化学储能和电催化方面的应用近年来受到越来越多的研究者关注。在这些过渡金属中,镍及其化合物,在碱性介质中具有作为超级电容器电极和电催化剂的巨大潜力。迄今为止,镍铁基氧化物及氢氧化物被认为是碱性电催化析氧反应OER(Oxygen Evolution Reaction)最有效的非贵金属催化剂之一,同时也是优异的电化学传感电极。在这些镍铁化合物之中,镍铁层
学位