论文部分内容阅读
目的:全基因组关联分析(Genome-wide association study,GWAS)是指在人类全基因组范围内找出存在的遗传变异,即单核苷酸多态性(SNP),从中筛选出与疾病或复杂性状相关的SNP位点。临床生化指标为人体生命机能的重要衡量指标,其失调将引起疾病的发生,因此了解这些指标之间的相关性以及遗传背景对研究疾病的发生具有重要的参考价值。本研究通过一系列的实验以及生物信息学方法研究防城港男性健康队列的27项临床生化指标间的关系模块,从表型与表型之间的关系到蛋白与蛋白互作的关系再到全基因组水平的连锁不平衡研究27项临床生化指标之间的相关性,以找出新的临床生化指标之间的关系,进一步通过遗传信息的挖掘找出影响临床数量性状相关模块的关键基因和位点。 方法:1.实验方法:(1)对1999例受试者的血清中27项临床生化指标进行生理值测定。(2)血液DNA提取并进行全基因组的基因分型。2.统计方法:(1)对27个临床生化指标之间的相关性研究通过以下三种方法:第一,基于斯皮尔曼等级相关系数研究临床生化指标之间的相关性。第二,基于改进的杰卡德系数研究临床生化指标之间的相关性。第三,基于连锁不平衡评分回归研究临床生化指标之间的相关性。(2)遗传信息挖掘:第一,使用Cytoscape对通过BioGRID数据库搜索之后纳入的基因进行基因网络互作图的构建及网络图的分析。第二,所有临床生化指标重要共享位点挖掘。第三,重要共享位点通过HaploReg数据库等进行注释和分析。 结果:1.对防城港男性健康队列的1999例血液样本的27个临床生化指标的生理值测定之后进行了平均值和95%置信区间的计算,发现这些指标的生理值均符合正常标准;通过斯皮尔曼相关系数的统计分析,发现这27个临床生化指标之间的相关性可以聚成3个关系模块,模块内大部分的斯皮尔曼相关系数r值均大于0.3;通过相关位点所在基因的蛋白质与蛋白质的互作关系,改进的杰卡德相关系数统计分析之后发现这27个临床生化指标之间的相关性可以聚成4个模块,比斯皮尔曼相关系数统计分析增加了一个相关性模块,并且新发现了免疫球蛋白A(IgA)和睾酮(TE)(J=0.29)、前列腺特异性抗原(PSA)(J=0.28)有着重要的相关关系;基于连锁不平衡评分回归(LDSC)统计方法的重要性,对全基因组位点进行了临床生化指标相关性分析,发现这些临床生化指标之间的相关性聚成了5个模块,相对已有文献报道,连锁不平衡评分回归比斯皮尔曼相关系数统计分析和杰卡德相关系数统计分析新发现了骨钙素(osteocalcin)与胆固醇(Cholesterol)(rg=-0.65,P=0.0142)、低密度脂蛋白(LDL)(rg=-0.70,P-0.0483)有着重要的相关关系,肌酐(Creatinine)与促卵泡激素(FSH)(rg=-0.85,P=0.0309)、癌胚蛋白(CEA)(rg=-0.87,P=0.0265)有着重要的相关关系;2.基因多效性,释为单一基因所产生的多重效应。同时影响多个表型的基因或位点对疾病的影响是很重要的,表明这些基因或位点是体内的hub基因或位点。首先通过构建基因互作图的“degree”值较高的基因和影响多个临床生化指标的基因进行交集处理,找到了183个重要基因。第二,对P<10-3的位点进行多个临床生化指标的交集处理,并通过HaploReg数据库和SNP FUNCTION PREDICTION数据库进行注释,找到81个重要位点,对这些重要位点的所在基因与上一步得到的183个重要基因进行交集处理,发现HLA-B、UBASH3B、POU5F1、AMFR、ANXA7和PHB等6个基因是这些方法的交集基因,有5个位点在这些基因上,它们分别是rs7744057(HLA-B)、rs10790521(UBASH3B)、rs9263800(POU5F1)、rs731119(AMFR)、rs7074613(AMFR)和rs2671662(ANXA7)。 结论:通过1999人的全基因组水平上的分析与27个临床生化指标进行系统的生物信息学分析及数据挖掘,并结合多种已有算法及改进的算法,找到27个临床常用生化指标之间的相关性。另外进一步挖掘到影响这些临床生化指标相关性的遗传信息,文献挖掘表明找到的基因HLA-B、UBASH3B、POU5F1、AMFR、ANXA7和PHB与人类疾病有着重要关系,rs7744057、rs10790521、rs9263800、rs731119、rs7074613和rs2671662的HaploReg注释结果表明这些位点具有非常重要的作用及极大的可研究性,本研究为复杂临床生化指标及疾病的遗传研究提供了系统而重要的理论依据。