北方汉族人群38个Y-STR基因座检测和容差分析并应用机器学习预测亲缘关系的探索研究

来源 :山西医科大学 | 被引量 : 0次 | 上传用户:junfeng_19860313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:研究38个Y-STR基因座在北方汉族人群中的遗传多态性与突变情况,分析其在无关个体对间、不同等级亲缘关系样本对间的容差分布情况,并构建一种基于容差分布的预测模型用于初步判断两个个体是否有亲缘关系并进行亲缘关系等级判断,希望在进行大规模人群亲缘关系判断的实践中发挥一定的作用。方法:采用毛细管电泳复合荧光检测技术对北方汉族人群的1572对父子样本和129对复杂家系样本进行38个Y-STR基因座和3个Y-In Del基因座的分型检测。分别计算群体单倍型/等位基因频率、法医遗传学参数与突变情况。并且分析无关个体对间的容差情况和不同等级亲缘关系样本对间的容差分布情况;此外,将容差分布情况结合随机森林(Random forest,RF)、随机梯度下降模型(Stochastic gradient descent,SGD)和梯度提升树模型(Gradient boosting decision tree,GBDT)三种集成学习模型,根据模型预测的准确性和ROC曲线下与坐标轴围成的面积(Area under curve,AUC)筛选最优亲缘关系预测模型,并利用该模型进一步预测亲缘关系等级。结果:本次实验在1549个无关男性个体中共检出1542种单倍型,单倍型匹配概率、单倍型多样性和识别能力分别为0.00065、0.9999和0.9955。38个Y-STR基因座检测到565个等位基因。3个Y-In Del基因座检测到6个等位基因,其基因多样性值在0.2620(rs771783753)~0.3949(rs199815934)。1572对父子对在59736次等位基因传递中共观察到251对父子发生了284次突变,平均突变率为0.0048(95%CI 4.2~5.3×10-3)。129对复杂家系样本在30400次等位基因传递中共观察到119对家系样本发生了468次突变,平均突变率为0.0154(95%CI 14.0~16.8×10-3)。关于容差分析,无关男性个体间容差基因数和容差步数分别是0-38个(11-35个容差基因座数占99.83%)和0-95步(20-70步容差步数占98.08%);不同等级亲缘关系样本对之间分型有差异的基因座分布为0-7个,容差步数分布在0-11步。机器学习模型显示,RF模型对于初步鉴别1-13级亲缘关系和无关样本的准确率高达0.9980,AUC达1.00。使用RF模型对亲缘关系等级进行区分的预测,结果显示,模型预测准确率为0.71,AUC为0.77,具有一定的准确性。结论:本研究中检测的38个Y-STR基因座在北方汉族人群中多态性较高,适合法医学领域在个体识别和家系排查中的应用;无关男性个体间Y-STR分型的容差范围比同一家系男性成员间大。基于容差步数和容差基因座数这两个特征指标构建的亲缘关系和亲缘关系等级分类预测模型有很好的预测效能。本研究结果不仅为以后利用Y-STR数据库在家系样本调查、数据分析提供一定的参考价值,还提供了对大规模样本进行亲缘关系初步判断的方法。
其他文献
石黑一雄于2017年获得诺贝尔奖,是当今英语文学世界备受关注的英籍日裔作家。然而当前国内外学界对其作品的研究多为单维度的流散叙事、身份焦虑、创伤书写以及记忆重构的研究;国内学界对其城市书写的研究尚处于起步阶段。本文选取其长篇小说《远山淡影》和《我辈孤雏》中关于日本长崎和中国上海的城市书写作为研究对象。两书分别出版于1982年和2000年,均以第二次世界大战时期的东方城市为背景,讲述了战争背景下普通
学位
联盟链平台超级账本Fabric为数据提供了通道来对数据进行隔离保护,但对于通道内的节点来说,链上的数据依旧是公开透明的,节点权限管理中心化,无法避免恶意节点对链上数据的泄露以及越权访问风险,无法满足联盟链中各个组织在某些情形下的细粒度数据访问控制要求,更不支持节点数据访问权限更新。另外,链上存储太大的文件,会导致联盟链管理效率降低和存储压力加大,影响整体效率。为了解决以上联盟链中存在的数据访问控制
学位
语言变革与文学创作密切相关。中国现代文学中的语言“欧化”现象产生于“五四”新文学阵营所倡导的“国语的文学,文学的国语”运动,它是新文学启蒙逻辑的特殊产物。本文将“欧化”现象置于“国语文学”运动这一历史语境,通过还原历史现场的方式来审视“欧化”现象的生成逻辑与内外危机,进而反思“五四”这一代知识分子的语言观和文化观。论文主体分为四章。第一章,梳理“国语文学”生成的历史情境。本章对“国语文学”的产生原
学位
面对当代欧洲共产主义运动的困境,法国左翼思想家阿兰·巴迪欧在经历了新自由主义思潮和后现代主义思潮的冲击后,坚定高举共产主义的大旗,对欧洲政治事件进行反思,以新的路径思考共产主义要旨,为新的政治秩序开辟道路。巴迪欧开拓性地提出了“数学就是本体论”的命题,构建起了以事件——真理—主体三元结构为前提性范畴的共产主义思想。在该三元结构中,事件通过情势的断裂使“非在”得以显现,类性延展的真理程序得以产生,从
学位
在互联网技术带来极大便利的同时,网络安全问题也引起了人们的高度重视。现有的被动防御机制因其滞后性而难以保障信息系统的安全,网络攻防呈现出一种不对等的局面。为了解决网络安全问题,亟需一种有效的主动防御技术。移动目标防御是一种为目标信息系统构建动态、异构、不确定的环境来挫败攻击者进而阻止攻击的主动防御技术,在关于移动目标防御的相关研究中,最优决策问题一直是研究重点和热点。博弈论因其过程特点与网络攻防过
学位
《新华日报》作为在抗日战争时期和解放战争初期,中国共产党在国民党统治中心公开出版的唯一全国性大型日报,它从创刊起,就坚持以人民的报纸为办报方针,努力满足人民大众的要求。密切联系广大读者就是《新华日报》贯彻其办报方针的重要体现,也是它屡经摧残而不垮的重要原因。重庆时期的《新华日报》在发行、价格、服务等层面以多种道路和形式同读者保,称其为“我们的报纸”,两者一起创造了党报历史上互为需要、报读一心的关系
学位
当今中国正处于从体育大国迈向体育强国的重要阶段。体育强国战略提出,2035年我国参加体育锻炼的人数将达到45%以上。羽毛球运动对运动场地和运动器材的要求不高,且在运动过程中无身体对抗,已然成为我国国民普及的运动项目。羽毛球亦属竞技性的运动项目,运动者掌握羽毛球运动的基础动作至关重要。初学者没有专业的教学指导不仅难以提高自身的竞技水平,也可能导致身体出现不同程度的损伤。据相关统计显示,羽毛球专业学生
学位
进入新时代,伴随着我国社会经济的快速发展以及居民生活水平的提高,国家正在加速完善全民健身公共服务体系,因此进一步提升公共体育服务范围和产品供给水平显得尤为重要。而现代体育场馆由于其容量与规模的优越性、装备设施先进性,也变成了提供现代公众体育运动服务,以适应公民日趋复杂化、多样化运动需求的主要场地。在此背景下,本文以“南宁市体育场馆公共服务协同治理”为研究对象,系统地建立了一个体育场馆公共服务协同治
学位
近年来,随着美国等西方发达国家对中国集成电路行业的制裁愈演愈烈,芯片国产化变得越来越受到重视。在工业以太网处理器领域,除了国产化的挑战之外,处理器的高实时性和高灵活性更是芯片设计的一大难点。目前,工业以太网从站设备的实现基本靠传统的无协处理器ASIC方式实现,无法体现灵活性和高实时性,因此有国外厂家提出了一种名为可编程实时引擎PRU的协处理器,来简单高效地实现工业以太网协议,而国内暂无此类型的处理
学位
目的:建立一个能够从混合斑中解析和鉴定阴道分泌物供体的检测体系,该体系通过阴道分泌物特异性表达的m RNA分子上具有多态性的编码SNP(coding SNP,c SNP)位点分型,从不同组织/体液构成的混合斑中解析阴道分泌物组分。方法:采用复合扩增法(Multiplex PCR)和SNa Pshot法检测阴道分泌物(VS)特异性m RNA分子上的c SNP。我们筛选了8个阴道分泌物特异性m RNA
学位