基于香农熵原理为目标人群筛选合适的法医学Y--STR基因座组合的初步研究

来源 :南方医科大学 | 被引量 : 1次 | 上传用户:fancylhs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:
  Y染色体短串联重复(short tandem repeat,STR)标记作为法医DNA检验中广泛使用的常染色体STR的有效补充方法之一,经过近三十年的发展,Y-STR检验已经发展成为一种非常成熟的,刑事案件侦查中不可或缺的辅助技术手段。近年来,联合应用Y-STR标记和毛细管电泳检测平台,在一系列恶性案件和陈年积案的侦破中取得了十分显著的成效。因此,Y-STR标记越来越受到法医科研人员和一线办案民警的关注和重视。2017年,Y-STR单倍型数据库(Y库)建设在全国各地纷纷启动。目前,中国已拥有全世界规模最大的Y库。中国的Y库建设和应用工作可谓如火如荼,Y-STR在辅助刑事案件侦查等方面也有着极为广泛的应用和独特的应用价值。然而,对Y-STR标记进行基础研究的速度和深度却远不及中国Y库建设的速度和应用的广度。因此,无论是在Y库建设还是在实际应用过程中一系列问题也接踵而至。
  一方面,在决定选择用什么样的Y-STR基因座和多少个基因座进行案件检验和Y库建设时,可能存在一定的依袭性和盲目性。几乎从来没有以科学的基础研究数据为依据,也没有考虑基因座间等位基因的关联关系以及不同群体间遗传背景的差异等问题。通常只是以Y-STR基因座的遗传差异度(genetic diversity,GD)、等位基因的数量或突变率等单个因素为依据,对基因座进行筛选和组合。即便如此,或许对这些因素的认知也存在一些误区。第一,在挑选基因座时普遍认为GD值越大的基因座越好,通常会把GD值大的基因座优先纳入Y-STR检测系统。第二,认为基因座越多越好,在检测系统能够容纳的前提下,总是希望尽可能地把更多的基因座塞进一个Y-STR检测系统。然而,是不是GD值越大的基因座越好,基因座越多越好,随意将GD值大的基因座组合在一起,所得系统的整体识别能力(discrimination capacity,DC)就一定最大等一系列问题尚缺乏系统性的研究。
  另一方面,虽然已经增加了单个个体样本的基因座检测数量,但是随着Y库中Y-STR单倍型的数量越来越多,将现场生物样本的Y-STR单倍型输入Y库进行搜索时,与人员样本单倍型匹配的概率也越来越大。其中,很多人员样本的单倍型可能还分散在全国各地、不同公安部门的Y库中。这不仅加大了案件排查的工作量,同时也增加了案件侦查的工作难度和复杂程度。面对这种窘境,最常用的方法就是通过追加更多的Y-STR检验,进一步排除已经“比中”的人员样本,尽可能地缩小排查范围。然而,由于没有对这些基因座间的关联关系进行过充分的研究,通常追加的Y-STR基因座,并没有达到高效排除已经“比中”的人员样本、缩小排查范围的目的;或者说追加的Y-STR基因座与Y库中己检测的Y-STR基因座联合后,其单倍型的个体DC并没有明显增加。
  影响Y-STR检测系统DC的除了基因座的数量以外,还有基因座的遗传多态性特征、被检人群的遗传背景以及基因座间的关联关系等诸多因素。急需引入一种新的Y-STR基因座组合筛选方法。这种方法必须要考虑到基因座间的关联关系,要尽可能地减少组合中基因座间的冗余信息。信息论中的香农熵原理似乎具备这种潜能,可以尝试用于Y-STR基因座组合的筛选。香农熵是指信息中去除了冗余后的平均信息量,它是信息论中用来评估随机变量的平均不可预测性的方法。如果把一个基因座或基因组中的某一段特定区域当作随机变量,把基因座中的不同等位基因或该区域中的不同单倍型看作变量对应的状态,那么就可以用香农熵来描述基因座或特定基因组区域中的信息量。
  因此,在本研究中,决定从Y-STR基因座的多态性、基因座间等位基因的关联关系、不同人群的遗传背景差异对Y-STR基因座的影响等方面进行初步探索性研究,并尝试利用信息论中的香农熵原理为不同的目标人群筛选合适的Y-STR基因座组合,以期为Y-STR检验在法医学中的应用和遇到的一些现实问题提供可信的科学依据和有效的解决办法。
  方法:
  1.从已发表的文献中选择Y-STR基因座,以GenBank(R)数据库中的参考序列为模板设计PCR扩增引物,基于六色荧光标记和毛细管电泳平台构建多重PCR复合扩增系统Y-STR34plex。
  2.对Y-STR34plex的种属特异性、精确性、抑制剂耐受性、灵敏度及组分变化的容忍性等性能进行系统评估和验证。
  3.同时用Y-STR34plex和AGCU Y SUPP两个Y-STR复合扩增系统(共46个Y-STR基因座),分别对玉林汉族(n=229)、湖南汉族(n=400)、湖南苗族(n=666)、湖南瑶族(n=611)、湖南侗族(n=643)和湖南土家族(n=633)等六个人群,共计3182份健康男性无关个体血液样本进行分型检测。
  4.计算46个Y-STR基因座的GD值、单体熵(single-locus entropy.Hsingle)等法医学评估参数,分析基因座两两间的关联程度并计算归一化熵差(normalized entropy difference,NED).
  5.同时用基于香农熵原理筛选基因座组合法、依据基因座GD值和Hsingle。值大小顺序依次组合法三种方法,分别在六个群体中筛选基因座组合。
  6.比较NED和基因座组合在六个群体间的差异,比较三种不同基因座筛选方法筛选出的基因座组合的DC、单倍型多样性(haplotype diversity,HD)、匹配概率(match probability,MP)、唯一单倍型比例(fraction of unique haplotypes,FUH)等法医学应用参数。
  结果与结论:
  1.在本研究中,通过系统设计实验方案、反复调整引物以及不断优化多重PCR体系中的各个组分,最终构建了一个新的Y-STR PCR复合扩增系统,命名为Y-STR34plex。Y-STR34plex可一次扩增和检测包括DYS533、DYS596、DYS518、DYS393、DYS448、Y—GATA—H4、DYS444、DYS481、DYS439、DYS3891、DYS438、DYS570、DYS456、DYS458、DYS392、DYS645、DYS390、DYS447、DYS460、DYS627、DYS576、DYS449、DYS593、DYS635、DYS389II、DYS557、DYS549、DYS19、DYS643、DYS437和DYS391等31个单拷贝基因座和DYF387SI a/b、DYS527a/b和DYS385a/b等3个多拷贝基因座。性能验证结果表明,Y-STR34plex具有良好的抗抑制能力、混合DNA检验能力、男性特异性和精确性,同时具有灵敏度高、PCR反应体系组分变化容忍性较高等特点。
  2.46个Y-STR基因座的GD值、Hsingle。等法医学评估参数以及NED在不同的人群间存在极显著的差异。
  3.引入了一种基于香农熵原理为法医学应用筛选Y-STR基因座组合的新方法。基于香农熵筛选出的基因座组合具有人群特异性,在不同的人群中,基因座组合中基因座的入选顺序和构成均具有明显的差异。
  4.在基因座数量相等时,基于香农熵原理筛选出的基因座组合比以往的仅依据单个基因座遗传多态性指标筛选出的组合,在组合的Hjoint和DC等法医学应用参数方面表现得更优秀。
  5.在法医DNA应用中,Y-STR的主要用途是缩小排查范围和提供侦查线索。如果一味地追求Y-STR组合的个体DC,显然不是一种十分明智的选择。仅凭单基因座遗传多态性指标或无节制地增加基因座,也不是获得经济的Y-STR组合的理想方法。
  6.在条件允许的情况下,应尽可能地扩大备选Y-STR基因座的选择范围,为目标人群筛选出最优的Y-STR组合。
  7.在选择Y-STR基因座组合时,应该全面考虑人群的遗传特征、群体大小、备选基因座在目标人群中的遗传多态性以及基因座间的关联关系等因素,才能筛选出适用于目标人群的Y-STR基因座组合。
其他文献
目的:蚊是一种重要的媒介昆虫,能传播多种疾病,给人类健康带来极大危害。寨卡病毒病是由寨卡病毒感染引起的一种烈性传染病,主要通过受感染的伊蚊(埃及伊蚊或臼纹伊蚊)叮咬人进行传播,目前仍缺乏有效的疫苗和治疗药物,所以蚊媒的防控显得尤为重要。昆虫致病性真菌一球抱白僵菌被证实对成蚊和幼虫有一定的杀灭作用,是一种环境友好型的生物杀虫剂。将球孢白僵菌应用于寨卡病毒病的防控并构建高毒力的重组自僵菌用来杀灭蚊虫,
学位
期刊
学位
期刊
报纸
期刊
期刊
期刊
学位
期刊