基于惩罚回归的纵向数据罕见变异关联分析

来源 :山西医科大学 | 被引量 : 0次 | 上传用户:yangxiaoxi21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:纵向二代测序数据相比于横断面数据,可以研究复杂性状随时间的变化关系、遗传位点对复杂疾病的动态效应,从而提高遗传变异对复杂疾病的解释程度。由于罕见变异的发生率极低,全基因组关联研究(genome-wide association studies,GWAS)常用的基于单个位点的分析用于罕见变异分析时,统计效能过低。现有的罕见变异分析大多数以基因为单位,研究一组罕见变异的遗传效应。有关纵向数据罕见变异关联分析的方法刚刚起步,由于纵向二代测序数据有限的样本量和不可避免的数据缺失,现有的广义估计方程(generalized estimating equations,GEE)和线性混合效应模型(linear mixed model,LMM)框架下的罕见变异关联分析面临计算的挑战。因此,针对纵向二代测序数据,迫切需要发展高效且计算上可行的关联分析方法,以克服现有方法的不足,筛选出对人类复杂疾病有重要影响的遗传变异位点或基因,为人类复杂疾病相关基因的识别,提供方法学支撑,为精准医学发展和新靶点的发现和挖掘提供证据。方法:本文提出基于惩罚GEE(pGEE)和惩罚二次推断函数(penalized quadratic inference function,pQIF)的纵向数据罕见变异关联分析方法。在pGEE和pQIF框架下,借用加权合计检验(Weighted Sum Statistic,WSS)以及遗传风险得分的思想,以基因为单位,对基因内所有常见变异和罕见变异加权求和,得到新的基因得分变量,将基因得分变量引入到pGEE和pQIF中进行分析,研究基因得分与疾病之间的关系,从而筛选出复杂疾病相关基因。利用GAW18真实遗传数据,模拟产生连续和二分类的血压表型数据,综合评价pGEE和pQIF纵向数据罕见变异关联分析在不同模型条件下的参数估计和基因筛选情况,同时,探讨pGEE和pQIF纵向数据罕见变异关联分析在不同作业相关矩阵下基因筛选的稳健性和一致性。最后,基于通路进行GAW18真实数据分析,选取高血压相关的两条重要通路,肾素-血管紧张素系统(Renin-angiotensin system,RAS)和Ca2+/AT-IIR/a-AR信号通路,以识别出高血压相关基因。结果:惩罚GEE和惩罚QIF的参数估计精度远优于未惩罚的GEE和QIF,随着样本量的增大,惩罚模型的参数估计精度接近于oracle模型,oracle模型即为仅包含效应为非零系数变量的真实模型;连续应变量的pGEE和pQIF纵向数据罕见变异关联分析的参数估计和变量选择结果略优于二分类应变量结果,体现出二分类模型的复杂性。pQIF的错误选择率极低,且在不同作业相关矩阵设置下参数估计具有稳健性和一致性,优于pGEE。然而,在样本量较小且维度较高时,pQIF无法正确选择效应基因;而pGEE对高维度且小样本情况,仍能以较高的正确选择率筛选出效应基因。因此,在纵向数据罕见变异关联分析中,当样本量较小且维度较低时,采用pQIF以避免错误选择;当样本量小且高维度时,采用pGEE方法。在Ca2+/AT-IIR/a-AR信号通路中,pGEE和pQIF共同识别出基因AGTR1;在RAS系统通路中,pGEE识别出THOP1和PRCP基因,pQIF识别出THOP1基因和ACE基因。结论:针对纵向二代测序数据分析,构建了pGEE和pQIF纵向数据罕见变异关联分析方法,两种方法互为补充,能应用于自变量个数随样本量增大而增大的情况,有效地识别出复杂疾病相关基因。随着纵向二代测序数据的日益增多,pGEE和pQIF纵向数据罕见变异关联分析的应用将更为广泛。
其他文献
超声波流量计是当前发展迅速的新一代流量测量有,仪表工作者们围绕其电路处理技术多有论述。从提高时差法超声流量计的测量精度和抗干扰能力的角度出发,在和测量方法上提出了几
目的探讨液基细胞学检查(LCT)联合人乳头瘤病毒(HPV)检测在宫颈癌前病变诊断中的应用价值。方法选取2013年1月~2015年12月在我院行宫颈癌筛查的40例妇女作为研究对象,进行LCT与HP
因文定义是训诂中最常用的一种训释词语意义的方法,本文以古今训诂材料为基础,阐述因文定义的“文”、“义”的具体所指,“文”与“义”的内在联系,论述了因文定义方法运用的审“
几十年来共青人在开发红土地、建设新江西的历程中形成的“坚韧不拔、艰苦创业、崇尚科学、开拓奋进”的共青精神,与伟大的井冈山精神一脉相承,是我们党在领导全国青年投身社会
学位
<正>实验能力是学习物理的重要能力,物理教学过程中的实验有助于加深学生对物理学概念、原理和规律的理解,也有助于培养学生的科学态度和创新精神;实验能力也是考生将来从事
2017年江苏高考作文题太通俗,通俗得出人意料.根据以下材料,选取角度,自拟题目,写一篇不少于800字的文章;文体不限,诗歌除外.生活中离不开车.车,种类繁多,形态各异.车来车往,
在马来西亚,马来语是马来族群的母语,而闽南语却是华族的其中一种方言,也是闽南方言群体的常用语言。由于政治、经济、社会和历史种种因素,马来语和闽南语发生互相借用的现象
本试验旨在从瘤胃发酵和纤维消化来研究粗饲料分级指数(GI)优化牦牛饲粮粗饲料科学搭配的组合效应。选取4种不同GI的粗饲料[苜蓿干草(9.52)、青贮玉米(1.81)、燕麦干草(1.34)
本研究的目的在于建立黄扯旗鱼(Pristella maxillaris)的核型分析方法,以了解该物种的染色体数目、形态及分类等遗传学特征。比较头肾-PHA法和胚胎制片法制备黄扯旗鱼染色体
目的:研究人乳头瘤病毒(human papilloma virus,HPV)与液基薄层细胞学检查(liquid thinprep cytology test,LCT)在宫颈癌筛查中的应用价值及HPV负荷量与组织学之间的关系。方法:对1