论文部分内容阅读
概率统计模型与方法在交叉学科中,特别是与生物及医学领域的交叉中,一直起着十分重要的作用。一方面,概率统计方法为生物及医学方面提供了可量化的理论基础和标准化的评价体系。另一方面,生命科学中复杂的现实问题也对现行的数学、统计方法提出了新的挑战,并推动着概率统计理论的发展与创新。本文应用概率、统计理论方法,对经典的群体遗传学问题提出了新的统计度量指数,另外,针对人类复杂疾病的影像遗传学前沿问题创新搭建了系统的统计推断框架。 首先,在经典的群体遗传学中,种群分化的度量即定量刻画是重要的研究内容。经典的方法通过种群中等位基因频率数据计算FST以及GST来度量种群的遗传分化程度。随着分子技术的不断革新,新的分子标记为群体遗传学研究提供了更多微观水平的信息。与此同时,经典的理论与方法在应用于新型标记时也暴露出不足和局限性,特别在应用于高变异基因位点时,FST以及GST的值会严重低估种群的分化水平。近年来,针对这一问题,一些新的种群分化度量如GST与D被提出来。然而,由于缺乏与它们相符的群体遗传理论背景,它们也引起了领域内的广泛争论。 在本文第二到第三章,我们基于理想种群(Idealized Population)的思想,结合群体遗传学的经典理论和概率、统计的理论与方法,建立了一个新的种群分化度量统计量:膨胀指数(Inflation Index)IST。它描述了标准化后亚种群内部的总基因一致度超出理想值(理想种群下的取值)的程度。通过模拟比较,IST在有限岛屿模型假设和无限等位基因模型假设下随时间演化的趋势与D较为相近,而与GST存在一些差别。根据理论推导,IST在种群处于平衡状态下的值可由突变速率和亚种群之间的迁移速率完全决定。我们的种群分化度量IST能够正确反映种群的分化水平,有效解决了高多样性导致的取值限制。同时,与D、GST等度量比较,在定义上更加符合群体遗传学的理论思路。此外,在种群达到平衡状态的条件假设下,IST可以良好的反映突变速率和迁移速率两个重要的群体参数之间的比例关系。 其次,在精神类疾病的研究中探寻人类基因与人脑影像的关联及综合作用是影像遗传学中的前沿和热点问题。现有的常用方法,一方面在指定基因或者指定脑区的关联分析中加入了较多先验信息;另一方面,在全脑全基因组关联分析中,由于涉及数据量和计算量极其巨大,又难以获得良好的统计功效。总而言之,如何有效利用多源多层次生物/医学数据,以多角度和立体的方式研究人类基因与人脑影像的关联与综合作用甚至复杂疾病是未来的发展趋势。 在本文第四与第五章中,我们提出了全新的统计推断框架,称为整合分析,对解决上述问题的研究提供了有效的解决思路与途径。整合分析大致可分为以下四个步骤: 1、在不加入任何先验假设基础上,基于基因与脑影像的关联分析挑选与脑影像高关联的潜在致病基因作为候选。 2、以独立数据库的综合信息验证候选基因的特异性。 3、根据独立数据库信息构建基因的相互作用网络模块,寻找候选基因之间的共同特性,定位它们共同作用的功能模块。 4、根据候选基因与大脑体素水平的关联,精确定位大脑潜在的致病区域。由此可以获得基因与大脑区域的多方面综合信息,为医学提供相关疾病的判断及诊疗依据。 本文应用上述框架对一组精神分裂症数据进行了整合分析,从994个有报道的与精神分裂症相关的基因中挑选出121个潜在的主要致病基因并由此定位了大脑中15个潜在的致病热簇。利用Brainspan数据库中的基因表达信息构建的时空网络模块的结果显示,我们挑出的121个候选基因显著的富集在3个时空的四大功能模块当中。其中,空间信息符合我们找到的热簇所在位置,时间信息与精神分裂症的高发时间段相互吻合。这一结果为精神分裂症研究与诊疗提供了综合的遗传与表型参考。