论文部分内容阅读
绝大多数复杂性状疾病(complex diseases)都是多基因病(polygenic disorders),随着人类基因组单型图( HapMap)的逐步完成,单核苷酸多态性(single-nucleotide polymorphisms)与单体型的研究必将在探究复杂性遗传疾病的遗传机理、患病风险与药物反应不同中扮演重要角色,已成为了生物医学许多研究领域的焦点。而与之相适应的统计学方法研究,近年来也成为国际上统计遗传学领域的热点。SNPs数据存在高维性和存在测量误差的特点,并且研究中容易忽视对基因整体效应的评价,导致许多方法在实际应用中存在缺陷。为此,本文采用基于Bayesian网络的潜类模型来进行高维度全基因组数据的分析。贝叶斯网潜类分析既可以有效地体现单体型和高维SNPs的综合效应,又可以充分发挥贝叶斯网络结构分析的特征,分析SNPs复杂的网络结构关系,是分析大规模基因数据的一种有效的方法,将为复杂性状疾病遗传以及基因定位等方面的研究提供新的方法支持。本文从贝叶斯网络的概念入手,系统的介绍了贝叶斯网隐变量模型的有关理论,包括模型的可识别性,模型的参数估计,模型的结构学习。模型的可识别性通过引入正则性的概念予以介绍,说明了模型可识别与不可识别的标准;模型参数估计阐述了最大似然估计,贝叶斯估计和EM算法这三种常用的参数估计方法,其中EM算法用于处理存在缺失情况的数据;模型结构学习按照贝叶斯隐变量模型生成的过程,依次介绍了模型的选择标准—评分函数与模型的优化算法,评分函数主要有贝叶斯评分、BIC评分、AIC评分、HVL评分、BICe评分、CS评分等,模型的优化算法介绍了K2算法和爬山算法,其中爬山算法是本次研究使用的重点算法。本文详细介绍了两种类型的贝叶斯网隐变量模型,即隐类模型和多层隐类模型,指出了两类模型的区别与联系,并阐述了在当前数据下,各个模型如何分别得到最优模型。在理论基础之上,本文应用贝叶斯网隐变量模型对实际SNPs数据进行了两个实例分析。实例1应用山西医科大学第一医院抑郁障碍性疾病的单核苷酸多态性的检测数据,每位患者分别测量7个SNPs。数据分析结果显示,人群被分为两个潜在类别,各类别的概率分别为0.22和0.78。造成两个类别概率不同的原因主要是由rs11568817和rs130058造成的。根据这两个SNPs位点,可以对两个人群的内在特征进行解释,其中类别1倾向于杂合子,类别2倾向于纯合子,各类别的概率分布情况由类概率分布直方表和类概率分布直方图给出。实例2数据是由GAW17提供的,包含697个个体22条常染色体的上万个SNP。本次研究随机挑选出1号染色体上12个基因的29个SNPs作为研究对象,按照累计信息贡献率达到95%的原则,模型选出C1S11408、C1S3201、C1S1786等15个与X0互信息量大的SNPs位点来对研究人群进行分类与解释。人群总体被分为2个类潜在类别,各类别的概率分别为0.68和0.32,其中第一个类别人群在各SNPs位点上纯合和杂合的概率大体相当(除CIS3201外),差别不是很大;第二个类别人群在各SNPs位点上纯合与杂合的概率差别特别大(个别位点除外)。实例2还对两个类别人群的疾病感染状况进行分析,结果表明两个类别人群的疾病感染状况不一致,第二个类别人群感染率(38.64%)明显高于第一个类别人群(25.99%),且差别具有统计学意义( X~2=11.459,P=0.001),而这种差别正是用来分类和解释两个类别的SNPs造成的,我们有理由认为这些SNPs为可疑致病位点,这就为进一步的研究提供明确思路。本文讨论部分对本次研究的意义做了简单说明,并把贝叶斯网隐变量模型与结构方程模型和概率参数化的潜在类别模型做了对比,研究的优点如结果陈列简单明了、可以对新患者进行分类等和缺点如运行费时、理论复杂等以及研究展望也在讨论部分做了说明。