论文部分内容阅读
家系亲缘关系的鉴定,是解决亲缘关系纠纷、寻找灾难、犯罪受害者、战争阵亡人员的家属工作的重要法医学技术手段。家系亲缘关系的身份鉴定技术通过检测生物检材样本的DNA遗传标记位点,根据亲缘参照个体的遗传信息,以推断未知个体同参照个体之间是否存在真实的家系亲缘关系。在身份鉴定领域中,短串联重复序列(short tandem repeat,STR)是应用最为广泛的一类遗传标记。目前最为常用的STR系统为联合DNA索引系统CODIS,包含13个STR基因座。对 STR基因座的鉴定,目前主要基于毛细管电泳技术,可对其等位基因的长度多态性进行分型检测。在近一二十年的实际应用中,这一成熟的检测分析方法被作为金标准,运用于身份识别和亲缘关系鉴定,取得了极大的成功。但基于STR基因座的鉴定也存在一些技术上的不足,如存在等位基因缺失、微变异峰、三等位基因等现象,在一定程度上增加了身份鉴定的分析难度并降低了准确度。另一方面,由于毛细管电泳技术对复合系统的遗传标记位点个数存在检测的上限,因此仅能实现对少数血统较近的家系亲缘关系进行鉴定,如亲子关系和全同胞关系。但是,在实际应用中亦存在对其他血统更远、更加复杂的家系亲缘关系鉴定的需要,而目前基于毛细管电泳 STR基因座复合系统进行检测的技术手段远不能满足这些需要。最后,由于STR基因座的序列长度较长(100-400碱基),故对对应的PCR扩增子的长度亦要求较长,而这对于法医学常遇到的陈旧、腐烂样本的适用性,有一定的影响。 单核苷酸多态性(single nucleotide polymorphism,SNP)是一类新型的遗传标记位点,发展时间较短。相对于一个STR基因座可以有很多的分型,SNP位点一般只有两种多态性,故SNP单个位点的鉴定效力远低于STR基因座。但是, SNP在其一些方面却相对于STR有明显的优势,包括备选SNP位点的数量极大、减数分裂中的遗传突变率极低、对高度降解的疑难样本适用性更广等等。另一方面,高通量测序技术(next-generation sequencing,NGS)和多重扩增技术的迅猛发展和普及也为应用大量 SNP位点进行家系亲缘关系的身份鉴定提供了可能。在先前的研究中,SNP位点作为STR基因座的补充,在亲子关系鉴定中的表现已经有所报道,但是在其他亲缘关系条件下的系统效能仍有待进一步研究。 因此,在本研究中,我们对基于 SNP身份识别位点,在多种亲缘关系中进行实际测试和评估,并通过大规模模拟计算,计算不同数目的SNP位点集在各种亲缘关系中的鉴定效力,并提出了一个定量评价指标。 首先,我们将基于似然率的亲缘关系鉴定模型应用于 SNP位点。对于身份鉴定领域中广泛采用的似然率指标,目前存在几种不同的计算方法。为了满足科学研究中的需要,本文基于其中一种Elston-Stewart算法的迭代模型,完成了似然率算法的程序化的实现。与其他似然率计算方法相比,本文实现的似然率计算程序适用性更广,可分别对STR基因座与SNP位点两种遗传标记进行似然率计算,并且适用于实际应用中可能遇到的各种家系亲缘关系。同时,本文对目前似然率计算中 STR基因座的突变模型进行了修正和完善,将其对各种等位基因遗传过程中的复杂分类情况进行系统的整合,得到的修正模型更加完备和统一。 然后,我们对真实家系样本进行了 SNP位点分型的似然率结果研究。通过收集27例真实家系和无关个体样本,利用NGS技术对其90个常染色体SNP位点进行分型.我们计算了涉及到的7种常见亲缘关系类型下的似然率结果,比较了真实亲属和无关对照的似然率分布。研究结果表明,由90个SNP位点组成的该复合系统在一些血统较近的家系亲缘关系,如亲子关系和同胞关系,表现出了足以满足实际鉴定需要的鉴定效力。对于其他血统更远的亲缘关系,如叔侄关系和堂兄弟关系等,则仍有必要在目前复合系统的基础上额外补充一定数量的SNP位点。 为了进一步对遗传标记的系统效能进行准确的量化评估,本研究给出了一项全新指标——误检水平(false testing level,FTL),定义为在一给定亲缘关系下,真实亲属和非亲属对象似然率理论分布的重合程度。在此基础上,本文对不同数量的遗传标记位点在各个家系亲缘关系下的系统效能变化规律进行了详细的探讨。模拟分析的结果表明,在给定家系亲缘关系的条件下,误检水平 FTL与复合系统中的遗传标记位点数存在指数递减的关系。为了达到0.1%的FTL水平(亲子鉴定中15个STR位点的系统效能),对于常见的家系亲缘关系如亲子关系、同胞关系、叔侄/半同胞关系和堂兄弟关系,则分别需要85、127、491和1,858个SNP位点。 根据此估计,目前发表的身份识别 SNP位点数目还不能满足较远亲缘关系的鉴定。为解决对血统更远的家系亲缘关系进行准确鉴定这一目前的技术难题,我们结合目前的大规模人类基因组个体数据资源(全基因组关联分析 GWAS、1000Genome计划等),建立了一套结合遗传学模型参数的筛选流程。经过计算,本文从理论上全新设计构建了一套包含482个SNP位点的复合系统,其中包括363个全新的身份鉴定的常染色体SNP位点。 本文对基于身份识别 SNP位点的家系亲缘关系鉴定进行了系统性研究,其结果可为 SNP位点在身份鉴定领域的应用提供有益的参考。同时希望在本文的基础上,为解决较远血统的亲缘关系鉴定这一难题提供突破的线索。