中国汉族人群血液AR-CpGs的筛选、验证及个体年龄推断研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sunwen_fly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景年龄是具有生物学基础的个体特征。当参考样本和DNA数据库均无法提供匹配信息时,通过准确推断生物样本的年龄,可以缩小未知嫌疑人的搜索范围、提供附加信息来更好地预测未知嫌疑人的外部可见特征。理论上,个体年龄推断在以下方面具有法医学应用价值:(1)在没有目击者证词和DNA数据库记录的情况下指导警方开展调查;(2)辅助身份不明遗体的鉴定;(3)为法律事务和欺诈事件等提供年龄信息;(4)改善年龄相关表型的预测。目前,人类学家和法医技术人员可以通过测量和分析骨骼或牙齿上各种年龄相关的形态变化来推断个体年龄,但是这些形态学方法仅适用于活体或遗骸存在的情形。然而,犯罪者遗留的生物证据极不可能是体液(如血液、精液和唾液)、脱落细胞、毛发或组织块以外的样本。因此,必须找到其他适用于这些样本的年龄推断方法。近二十年来,研究人员先后报道了多种与年龄相关的生物标记物,如天冬氨酸外消旋化、线粒体DNA缺失、信号结合T细胞受体删除环、端粒长度、晚期糖基化终末产物和mRNA。可是这些方法还存在推断精度低、检测结果准确性、可重复性差以及易受环境因素影响等不足。越来越多的证据表明,人类基因组特定位点的DNA甲基化(DNA methylation,DNAm)水平与年龄具有显著相关性,被称为“表观遗传学时钟”。近来研究表明,年龄相关CpG位点的年龄推断能力显著优于mRNA、信号结合T细胞受体删除环和端粒长度。目前,已有多个研究基于不同甲基化分析平台开发了可用于血液、唾液、口腔拭子、精液或更广泛组织的年龄推断模型,进一步证实了DNAm是法医学个体年龄推断中最有前景的生物标记物。研究已证实CpG标记的甲基化具有群体差异,但是目前绝大多数报道以欧洲起源人群或白种人为研究对象,即使有少数针对汉族人群的研究,也缺少系统性。鉴于此,本研究旨在采用Infinium MethylationEPIC芯片在全基因组范围内筛选中国汉族人群血液特异性的年龄相关CpG位点,并构建基于焦磷酸测序技术的个体年龄推断方法,以期为法医学个体年龄推断奠定研究基础。本研究主要包括以下三个部分:第一部分:年龄相关CpG位点的筛选目的筛选适用于中国汉族人群的年龄相关CpG位点以及450K芯片覆盖范围外的年龄相关CpG位点。方法通过自诉病史或常规体检募集中国汉族无关健康志愿者42名,其中青年组(1825岁)、中年组(3545岁)和老年组(5565岁)各14名且每组的男性和女性各占一半。使用Illumina Infinium MethylationEPIC(850K)芯片分析这些志愿者全血基因组DNA中约853,307个CpG位点的甲基化状态。按照下述原则过滤探针和样本:(1)信号强度低于平均背景信号的探针(detection P-values>0.01);(2)在≥5%的样本中beads数小于3的探针;(3)有效探针比例小于98%的样本;(4)SNP位点对照探针。计算样本中有效CpG位点的甲基化β值后,使用BMIQ(beta mixture quantile dilation)法对β值进行归一化,并根据归一化后的β值,采用limma包和step-up Hochberg方法分别计算组间差异比较的P值和校正P值。然后,以P值小于0.01或校正P值小于0.05为条件,分别从男性样本、女性样本和总样本中筛选具有统计显著性的差异甲基化位点(differentially methylated positions,DMPs),并以各年龄组两两比较的交集作为年龄相关CpG标记集合。最后,以老年组和青年组之间甲基化β值的差值的绝对值大于0.15为条件,挑选出用于后续验证的男性和女性候选CpG位点。此外,通过与已有文献进行比对以及使用850K数据对现有模型进行评估,反过来证实数据的可靠性。结果所有42个样本通过质控标准。以P值小于0.01或校正P值小于0.05为条件,在总样本的中年组与青年组(校正P值<0.05)、老年组与青年组(校正P值<0.05)和老年组与中年组(P值<0.01)之间分别筛选到20,378个,56,584个和5,281个具有统计显著性的DMPs。在男性样本的中年组与青年组(校正P值<0.05)、老年组与青年组(校正P值<0.05)和老年组与中年组(P值<0.01)之间分别筛选到1,030个,14,453个和5,686个具有统计显著性的DMPs。在女性样本的中年组与青年组(P值<0.01)、老年组与青年组(校正P值<0.05)和老年组与中年组(P值<0.01)之间分别筛选到9,956个,1,291个和3,626个具有统计显著性的DMPs。取交集后,在总样本、男性样本和女性样本中分别筛选到785个、68个和151个在三次组间比较中均具有统计显著性的年龄相关CpG位点。所有这些CpG位点的甲基化β值随着年龄增长而逐渐增加或减少。进一步分析表明,除Y染色体外,所有染色体上都存在年龄相关CpG位点。值得注意的是,大多数年龄相关CpG位点不属于450K芯片,特别是在单独分析男性样本时,高达60%。大约三分之二的CpG位点的甲基化β值随年龄增长呈下降趋势。特别地,68个男性年龄相关CpG位点中只有1个位点的甲基化β值随年龄增长呈上升趋势,而其余67个均表现出下降趋势。总样本、男性样本和女性样本的年龄相关CpG位点共享了5个位点,分别是cg16867657(ELOVL2)、cg10501210(C1orf132)、cg12899747、cg07504615和cg21599943。更重要的是,男性样本与女性样本之间的交集也只有这5个位点。考虑到可能存在的性别差异,最终以老年组和青年组之间甲基化β值的差值的绝对值大于0.15为条件,分别挑选出25个男性和24个女性年龄相关CpG位点。除去共有的3个CpG位点(cg16867657、cg10501210、cg12899747)外,这些候选位点中有18个850K芯片特有的CpG位点以及28个450K位点。相关分析显示,这些位点的Spearman相关系数的绝对值在0.750.95范围内。文献检索结果显示,28个450K位点中,12个位点被报道为年龄相关CpG位点,9个位点无相关报道,其余7个位点与其他疾病、吸烟或长寿相关。经过综合分析,剔除了与吸烟相关的候选位点cg04885881。更重要的是,这些位点中仅有3个位点与现有汉族群体研究的CpG位点重叠。通过使用Park模型:Age=39.73167+(5423(cg04208403)×(-0.28914)+(12(cg16867657)×1.19242+102(cg19283806)×(-0.69994),确定了850K DNAm数据的有效性。结论发现在450K覆盖区域外存在其他年龄CpG位点。选择了25个男性候选CpG位点和23个女性候选CpG位点用于下一步的验证。此外,在小样本芯片分析中,组间差异比较方法可用于年龄相关CpG位点的筛选。第二部分:焦磷酸测序方法的建立与候选CpG位点的验证目的建立用于候选CpG位点甲基化分析的焦磷酸测序方法和进一步筛选出用于建立年龄推断模型的CpG位点或区域。方法根据候选CpG位点的侧翼序列和引物设计原则,使用PyroMark Assay Design软件2.0版本设计PCR扩增引物和焦磷酸测序引物。按照制造商的说明,使用QIAamp DNA Blood Mini Kit、EpiTect Fast DNA Bisulfite Kit和PyroMark PCR Kit完成基因组DNA的提取、1000 ng基因组DNA的亚硫酸氢盐转化和PCR扩增。通过优化PCR扩增的退火温度以及焦磷酸测序的测序引物,建立可用于分析位于41个片段中137个CpG位点甲基化水平的焦磷酸测序方法。选取中国汉族无关健康个体60名,其中青年组(1823岁)、中年组(3843岁)和老年组(5561岁)各20名且每组的男性和女性各占一半。实际年龄等于样本采集日期距身份证、出生证明或户口簿上记载的出生日期的天数除以365,并保留2位小数。使用已建立的41个焦磷酸测序体系分别对30名男性和30女性的外周血基因组DNA进行检测。使用PyroMark Q24 Advanced 3.01软件提取甲基化数据,并利用统计软件计算每个CpG位点的甲基化β值与个体年龄之间的Spearman相关系数。最后,以相关系数的绝对值大于0.75作为条件完成候选CpG位点的进一步筛选。结果由于女性候选位点cg04875128位于CpG密集区域,难以设计合适引物,而男性候选位点cg13108341多次优化失败,因此共建立了可用于检测41个基因组区域内共137个CpG位点的焦磷酸测序方法。相关分析结果显示,以相关系数绝对值大于0.65为标准,20个女性候选区域(包括22个候选位点)中共有14个区域至少包含一个满足条件的CpG位点。相应地,24个男性区域(包括24个候选位点)中则有16个区域满足条件。如果将相关系数阈值调整为0.70、0.75和0.80,在女性候选区域中,分别有12个、8个和5个目标区域满足条件,而男性候选区域则分别有11个、9个和5个目标区域满足条件。此外,与焦磷酸测序数据相比,基于450K数据的相关系数明显偏大。最终以相关系数绝对值大于0.75作为筛选标准,分别挑选了8个女性候选区域(F1cg16867657,F2cg22454769,F3cg06279276,F4cg07547549,F5cg10501210,F9cg27030854,F11cg11584042和F14cg26947034)和8个男性候选区域(M1cg16867657,M2cg02844688,M3cg18738190,M4cg03372207,M10cg10501210,M12cg13552692,M18cg17675043和M24cg17740900)用于下一步的大样本验证和模型构建。结论建立的41个焦磷酸测序体系可用于对应区域的甲基化检测分析。此外,证实了位于8个男性和8个女性候选区域内的CpG位点具有显著的年龄相关性,可作为候选位点用于后续年龄推断模型的构建。第三部分:多元线性回归模型的建立目的从候选区域内挑选与年龄显著相关的CpG位点,并构建年龄推断模型。方法使用已优化的焦磷酸测序体系分别对141名女性个体(380岁)外周血样本中8个候选区域内的51个CpG位点和167名男性个体(185岁)外周血样本中9个候选区域内的41个CpG位点进行甲基化定量分析。根据DNAm数据分别计算每个CpG位点与实际年龄的Spearman相关系数。随后,从每个候选区域内选择一个相关系数最大的CpG位点用于构建分别针对男性、女性和不分性别的多元线性回归模型。首先,基于全部样本的DNAm数据,构建包含所有入选CpG位点的多元线性回归模型,并使用逐步回归测试各位点的相对重要性。然后,将整个样本按照7:3的比例进行随机分割,其中70%的样本作为训练集,30%的样本作为测试集。以校正R2、马洛斯Cp值和贝叶斯信息准则BIC值为参考指标,使用最优子集选择法构建模型,并计算平均绝对偏差(mean absolute deviation,MAD)、均方误差(mean squared error,MSE)、均方根误差(root mean square error,RMSE)和平均绝对百分比误差(mean absolute percentage error,MAPE),以用于衡量模型的预测性能。将整个样本分为五个年龄组:018岁、1830岁、3040岁、4050岁、>50岁,分别计算回归模型在训练集和测试集中±5岁范围内的预测准确率。最后,使用k折交叉验证法对模型进行评估。结果相关分析结果显示,男性候选区域M1、M2、M3、M4、M8、M10、M12、M24和女性候选区域F2在男性样本中与实际年龄的相关系数绝对值的范围分别为0.89290.9570、0.79630.8017、0.57890.8256、0.8379、0.77480.8183、0.80160.9228、0.89280.9234、0.9143和0.06390.9242。女性候选区域F1、F2、F3、F4、F5、F9、F11和F14在女性样本中与实际年龄的相关系数绝对值的范围分别为0.87420.9483、0.04090.8982、0.63600.7903、0.44760.7682、0.74560.9053、0.7397、0.81860.8189和0.8852。男性和女性共有候选区域ELOVL2(M1或F1)、C1orf132(M10或F5)和FHL2(F2)在总样本中与实际年龄的相关系数绝对值的范围分别为0.89600.9478、0.77680.9151和0.01780.9136。其中,相关系数最大的CpG位点在这三组分析中均位于ELOVL2基因内。经初步测试,发现部分候选区域内相关系数最大的CpG位点在回归模型中所起的作用相对较小。以校正R2、马洛斯Cp值和贝叶斯信息准则BIC值为参考指标,选择了6个(cg17740900、cg19283806、M21、M108、F23和M16)、4个(F22、F46、F55和F17)和3个(ELOVL27、FHL22和C1orf1328)CpG位点分别用于构建男性模型、女性模型和联合模型。在男性模型(校正R2=0.9529)中,训练集的MAD、MSE、RMSE和MAPE分别为2.6568,12.0906,3.4772和11.9565%;测试集的MAD、MSE、RMSE和MAPE分别为3.0826、16.6841、4.0846和17.3213%。该模型在训练集和测试集中±5岁的预测准确率分别为87.07%和86.27%;预测年龄与实际年龄的Spearman相关系数分别为0.98088和0.97622。10次10折交叉验证的校正后R2、MAD、MSE、RMSE和MAPE分别为0.9544±5.8613E-5、2.9026±0.5555岁、14.6939±6.2751、3.7495±0.8011和0.1352±0.0650。在女性模型(校正R2=0.9373)中,训练集的MAD、MSE、RMSE和MAPE分别为2.9627岁、13.3577、3.6548和2.1281%,测试集的MAD、MSE、RMSE和MAPE分别为3.0521岁、17.2682、4.1555和11.4948%。该模型在训练集和测试集中±5岁的预测准确率分别为85.71%和76.74%;预测年龄与实际年龄的Spearman相关系数分别为0.96503和0.95681。10次10折交叉验证的校正R2、MAD、MSE、RMSE和MAPE分别为0.9312±6.6451E?5、3.1103±0.7211岁、15.8586±7.1785、3.8925±0.8451和0.1249±0.0475。在联合模型(校正R2=0.9317)中,训练集的MAD、MSE、RMSE和MAPE分别为3.1875岁、16.2752、4.0342和13.0524%;测试集的MAD、MSE、RMSE和MAPE分别为3.2506岁、17.9997、4.2426和13.7312%。该模型在训练集和测试集中±5岁的预测准确率分别为77.67%和78.49%;预测年龄与实际年龄的Spearman相关系数分别为0.96405和0.97026。10次10折交叉验证的校正R2、MAD、MSE、RMSE和MAPE分别为0.9352±2.3084E-5、3.2483±0.3998岁、17.2531±4.1733、4.1233±0.5043和0.1423±0.0440。将三个模型应用于训练集和测试集时,均发现老年个体(>50岁)的预测准确率出现下降。另一方面,使用联合模型进行样本预测时,虽然发现实际年龄与预测年龄的差值分布在男性和女性之间有显著差异(Man-Whitney检验:P=0.00482;Kruskal-Wallis方差分析:P=0.00481;Kolmogorov-Smirnov检验:P=0.01382),但是将性别纳入联合模型并不会明显改善预测准确率。值得注意的是,男性模型中包含了一个新位点cg17740900。结论鉴定了可用于开发年龄推断模型的多个CpG位点。建立了三个MAD约3.0岁的年龄推断模型,为后续研究和实践奠定了基础。
其他文献
<正>欧内斯特·海明威(1899—1961),是美国杰出的现代文学巨匠,正如约翰·肯尼迪总统所说:"几乎没有哪个美国人比欧内斯特·海明威对美国人民的感情和态度产生过更大的影响。
<正>作为中国现代第一篇白话文小说,长期以来,学界习惯性地将《狂人日记》看做是鲁迅用新文学对五四思想启蒙的参与和声援。这不仅远离了鲁迅本人的创作意图,同时也背离了作
在长期的“城乡分割”、“以农补工”的城乡“二元”结构体制和向城市倾斜、“重城轻乡”的财政分配制度下,我国农村公共产品供应不足,造成了城乡之间和工农之间的严重差别。
<正>禅,是一种思维方法;禅茶,是以茶为载体,以茶悟禅的一种人文活动,是茶与禅在精神层面的契合。而"禅茶"这种文化传播的一条重要途径,就是"禅茶茶艺"。禅茶茶艺作为一种艺术
目的:门诊药房开展合理用药咨询的体会及意义。方法:结合实际对合理用药咨询工作和内容进行介绍。结果:门诊药房开展合理用药咨询得到患者和医护人员好评。结论:合理用药咨询
<正>王安忆是一个对人类自身生存密切关注的作家,她对人类个体存在方式的思考从对自身个体存在的追踪开始,依次构建为我的来历的追问,母系家族神话的虚构,父系家族的寻踪三个
<正> 女性尿道短而直很少损伤,完全断裂很少见.我院1983年收治的尿道损伤病人中遇到二例女性骨盆骨折合并完全性尿道断裂,报告如下.例一,24岁,排尿归途中被汽车后轮从骨盆部
<正> 随着商品经济的发展和市场经济体制的建立,企业应收账款资金明显增加,存货占用量也越来越多,拖欠货款现象也越来越严重。因此加强对应收账款和产成品资金的管理,已成为
本文论述了冷凝系统降温设备浸没式冷却流槽,它的降温冷却效果将直接影响到液体金属锌的产量和质量,影响其冷却效果的主要因素有溜槽内冷却排管的热交换效果,循环冷却水水质、水
探讨不同温度下剑尾鱼注射免疫后免疫球蛋白M(IgM)的mRNA在脾脏和头肾中转录水平的变化。根据IgM和β-actin mRNA序列,设计并合成引物,建立了两步法荧光定量RT-PCR技术平台。