论文部分内容阅读
研究背景犯罪现场生物检材的个体年龄推断在法医调查中具有重要意义。传统法医学主要根据骨骼、牙齿等组织随个体年龄增长而产生的形态学变化特征进行年龄推断。但该方法年龄推断精度较低且易受个体经验、检材有无等因素的影响。随着分子生物学的飞速发展,一些与人类发育及衰老过程相关的生物分子标记相继被发现,给法医学个体年龄推断带来了全新的研究视角和方向。相关研究报道表明,在个体年龄推断方面,DNA甲基化明显优于其它生物分子标记,如线粒体DNA的氧化损伤和缺失、mRNA表达水平、信号结合T细胞受体删除环和端粒长度等,具有稳定性好,准确率和灵敏度高等优点,是目前公认的最具有个体年龄推断应用前景的生物分子标记。同时,DNA甲基化检测平台多样,包括焦磷酸测序、甲基化SNaPshot和大规模平行测序(massively parallel sequencing,MPS)等,能够与各种法医标准实验室匹配,以满足不同的研究需求。此外,年龄相关DNA甲基化标记具有组织特异性和群体特异性,所以实践应用之前,针对不同人群和组织对候选的年龄相关CpG位点进行重复验证很有必要。在本课题组先前的研究中,首先挑选并验证了已报道的7个年龄相关CpG位点在中国汉族人群血液样本中的年龄相关性。随后,又从中国汉族人群的血液样本中筛选出一些年龄相关性较高的DNA甲基化标记,并建立了基于焦磷酸测序的年龄推断方法。因此,基于本课题组先前的研究结果,本次研究针对中国汉族人群血液样本选择一组具有强年龄相关性的CpG位点以建立一种简单有效且准确的法医学个体年龄推断方法。目的从本课题组先前的研究结果中挑选8个强年龄相关性CpG位点,即chr6:11,044,628(GRCH38/hg38,ELOVL2)、cg06639320(FHL2)、chr1:207,823,723(GRCH38/hg38,C1orf132)、cg19283806(CCDC102B)、cg26947034(GRCH38/hg38,chr7:33,895,826)、cg17740900(SYNE2)、cg14361627(KLF14)和cg07553761(TRIM59),构建中国汉族人群血液样本甲基化SNaPshot复合检测体系,以开发一种简单高效的年龄推断方法,同时评估其在法医学个体年龄推断中的应用价值。方法⑴根据本课题组先前相关研究,筛选出8个强年龄相关性CpG位点,并采用甲基化SNaPshot技术构建复合PCR扩增和单碱基延伸反应体系。⑵采用建立的甲基化SNaPshot复合检测体系检测529名中国汉族健康无关个体血液样本中8个强年龄相关性CpG位点的DNA甲基化水平,根据获得的甲基化数据分析单个CpG位点甲基化水平的随龄变化特征及Pearson相关系数。⑶随机选取374份血液样本的甲基化数据构成训练集,并以此建立多元线性回归(multiple linar regression,MLR)和支持向量回归(support vector regression,SVR)年龄推断模型,计算回归模型中推断年龄与实际年龄之间的校正系数R~2、平均绝对偏差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE)等统计学指标,这些指标用来衡量模型的年龄推断精度。⑷155份血液样本的甲基化数据构成验证集,将验证集数据代入构建的MLR和SVR模型中获得对应样本的推断年龄,以此验证模型的年龄推断精度(统计学参数同训练集)。⑸根据样本实际年龄将训练集和验证集划分为六个年龄组:2~19岁;20~29岁;30~39岁;40~49岁;50~59岁和60~82岁。分别计算两种模型推断年龄在实际年龄±5岁误差范围内的推断准确率。⑹通过在PCR反应中输入不同的DNA用量检测该体系的灵敏度。同时采用该方法推断血痕样本年龄,将对应的血液样本设为对照组,比较两者是否有统计学差异。结果⑴筛选的8个年龄相关性CpG位点与年龄之间均显示强年龄相关性(0.8<r<1.0),其中chr6:11,044,628(ELOVL2)的年龄相关性最高(r=0.9251),基于此成功构建了基于8个强年龄相关性CpG位点甲基化SNaPshot复合检测体系。⑵在训练集中,MLR年龄推断模型解释了92.2%的年龄变异(R~2=0.922),且MAE=3.52岁,RMSE=5.34岁。SVR年龄推断模型解释了93.3%的年龄变异(R~2=0.933),且MAE=2.88岁,RMSE=4.94岁。⑶在验证集中,MLR和SVR模型的MAE分别为3.71岁和3.34岁,RMSE分别为5.59岁和5.41岁,且±5岁误差范围内的推断准确率分别达到了79.35%(123/155)和83.23%(129/155)。总的来说,SVR模型相较于MLR模型具有更高的年龄推断精度。⑷该方法可以检测到转化后1 ng的DNA甲基化水平,但是在PCR反应中最佳的DNA用量为10 ng。此外,该方法在分析血痕样本时与血液样本之间没有显著的统计学差异(P>0.05)。⑸在一例实际案件应用中,本次研究开发的年龄推断方法能够准确推断未知血液样本个体年龄,年龄推断误差小于0.6岁。结论本次研究中,采用甲基化SNaPshot构建了基于8个强年龄相关性CpG位点的复合检测体系,成功建立了一种适用于中国汉族人群血液样本的简单有效且准确的年龄推断方法。在法医实际案件应用中,该方法能够准确推断现场遗留血样的嫌疑人的年龄,表明其具有良好的法医学应用前景。