基于人工智能(AI)技术的基因组遗传值预测的新算法开发

来源 :集美大学 | 被引量 : 0次 | 上传用户:kissyouss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组遗传值预测是结合基因组标记信息和表型信息来对个体进行基因组遗传值估计的方法。它不仅可以用于动植物的早期选择育种,还可应用于人类疾病的风险评估。该方法称之为基因组选择(Genomic Selection,GS),基因组评估(Genomic Evaluation,GE)或基因组预测(Genomic Prediction,GP)等。本研究针对基因组遗传值预测算法展开研究,主要的研究内容有:(1)开发了基于集成学习的基因组遗传值预测算法ELPGV;(2)开发了基于深度残差神经网络的基因组遗传值预测算法Res GS;(3)对上述的研究内容分别进行总结、探讨和展望。主要研究结果如下:(1)提出了一种基于集成学习的基因组遗传值预测算法,并命名为ELPGV(Ensemble Learning of Prediction for Genetic Value,ELPGV),它是将几种基础预测模型(如GBLUP、Bayes A、Bayes B和Bayes Cπ)的预测结果通过集成学习组合成更精确的预测结果的元算法。我们使用了多个数据集来验证ELPGV的预测性能。所有结果都表明,ELPGV的预测准确度显著高于其所集成的基础预测模型。在对WTCCC数据集的六种疾病风险评估中,显著性P值为4.853E-118~9.640E-20;在荷斯坦奶牛数据集中,其P值为9.943E-80~0.001E-00。而且ELPGV未使用基因型数据,因此节省了大量的计算资源,使用内存为2GB的计算机来预测WTCCC数据集仅需要几分钟。其次,我们还通过大量实验验证了ELPGV的性能受所集成的基础预测模型相似性的影响,即集成的基础预测模型相关性越低,集成后的预测准确度就越高。反之使用更多类似的基础预测模型去集成,则ELPGV的预测准确度不会显著提高。我们将ELPGV开发成R包,可以通过https://github.com/Gu Lin Lin-JMU/ELPGV访问。(2)针对深度学习技术的基因组遗传值预测算法Deep GS存在计算效率低和准确度不高等问题。我们开发了一种新的深度学习基因组遗传值预测算法,并命名为Res GS。新算法的特点是:a.以深度残差神经网络来预测遗传值,可捕获基因型内部的复杂关系,提高预测准确度;b.采用卷积(Convolution)和池化(Pooling)策略来降低高维基因型数据的复杂性,加快计算速度;c.模型中引入批量归一化层(Batch Normalization Layer,BN Layer),加快了模型的收敛速度。我们将新算法分别应用于599个株系的小麦数据集和2000个株系的伊朗小麦数据集中,结果表明,Res GS的效果优于前馈神经网络(Feedforward Neural Network,FNN),相对提高101.59%~130.83%。在对大部分表型的预测中,Res GS比GBLUP提高了2.24%~20.19%。计算耗时方面Res GS仅次于GBLUP,比Deep GS快了大约18~22倍,比FNN快了24~26倍。Res GS有效地解决了因层数的增加而导致模型准确度降低的问题。因此,在实际应用中,Res GS的前景更为广阔。本研究运用人工智能(Artificial Intelligence,AI)技术开发基因组遗传值预测模型,提出的集成学习基因组遗传值预测模型ELPGV有效地改善了以往需要根据特定表型的遗传机制选用特定的基因组遗传值预测模型的难题。其次,我们还针对深度学习基因组遗传值预测模型Deep GS收敛速度慢、准确度不高的情况做出了相应的改进,遂提出了Res GS,Res GS有效地解决了深度学习收敛速度慢、计算效率低等问题,更符合实际预测的要求。
其他文献
糙米营养丰富,是一种重要的全谷物。由于表面包裹着一层致密的种皮,糙米以粒食方式食用通常存在蒸煮时间长和口感差等问题。为了保留糙米营养成分的同时且最大限度改善其食用品质,本文以3种皮层去除程度(碾皮率)为2%的糙米(京越-1和绥粳-18为中长粒,龙粳-31为短圆粒)为原料,研究低温等离子体、过热蒸汽和酶解辅助预糊化这3种新兴的加工技术对糙米食用品质的改善效果,且其改善效果与不同碾皮率米样进行对比,同
德国海德堡高速印刷机送纸机构是一种典型的“浮动推杆-盘形凸轮机构”,本文将连杆-摇杆间许用压力角条件引入已有机构性能评价体系中,重新对其三种演化机构的Ⅰ类尺寸综合问题进行研究。浮动正半径滚子/平底推杆-盘形凸轮机构尺寸综合理论皆是基于类速度图原理,通过提出“三力汇交点瞬时区间套”、“凸轮滚子接触点瞬时区间套”、满足双压力角条件的“瞬时区域套/边界”等概念,分析总结两种传动性能条件下瞬时解域/边界的
魔芋胶(Konjac gum,KGM)具有较好的持水性、胶凝性、增稠性和成膜性,应用于医疗、化工和食品等领域。然而,魔芋胶是粘度最高的水溶性胶之一,限制了其应用范围。本文以皱纹盘鲍(Haliotis discus hannai)内脏为原料,用磷酸盐缓冲液浸提的方法从中提取制备粗酶,用于降解魔芋胶,并对降解魔芋胶(Degraded KGM samples,DKGMs)的理化性质进行研究。结果表明,鲍
腥味是影响鱼类等水产品加工、销售的关键制约因素之一。淡水鱼鲫鱼和海水鱼黄翅是我国传统菜肴鱼汤加工的代表性原料品种,本论文以这两种鱼为研究对象,联合应用感官评价和气相色谱-质谱-嗅闻(GC-MS-O)技术检测及分析鱼体的主要挥发性物质,确定鱼体存在的腥味关联成分,并通过气味重组和缺失实验进行验证,最后对鱼体宰后放置时间和热处理方式对腥味关联成分的影响进行了初步探讨。主要研究结果如下:1.通过GC-M
自溶(autolysis),是指当机体受到物理、化学和生物因素等刺激后,诱发自身酶系破坏自身组织结构,最终导致肌肉软化发生的过程,细胞外基质(Extracellular matrix,ECM)的降解是肌肉软化的重要因素。ECM的主要成分是胶原蛋白,其中I型胶原蛋白占总胶原蛋白的80-90%。由于基质金属蛋白酶(Matrix metalloproteinases,MMPs)能特异性降解胶原蛋白,且M
华贵栉孔扇贝(Chlamys nobilis)是我国南方沿海地区的重要经济贝类,因其引起的食物过敏问题日益增多。本文以华贵栉孔扇贝为实验对象,纯化其主要过敏原原肌球蛋白(tropomyosin,TM),对TM的致敏性、理化特性、IgE结合表位进行了系统分析,并探究美拉德反应对TM的IgE结合表位及致敏性的影响,为精准开发低致敏性食物提供了理论基础。本研究从华贵栉孔扇贝闭壳肌中分离纯化得到了36 k
脯氨酰内肽酶(Prolyl endopeptidase,PEP,EC3.4.21.26)是属于丝氨酸蛋白酶家族中一类特殊的蛋白酶,通过特异性分解长度小于33个氨基酸并含有脯氨酸残基的寡肽参与学习和记忆,细胞增殖和分化,葡萄糖代谢等许多生物过程。然而,相较于哺乳动物PEP,对水产动物PEP的研究相对较少,PEP在水产动物中的功能尚不明确,不同水产动物PEP之间是否存在差异性也有待研究。本研究以海水鱼
虾青素(Astaxanthin,ASTA)是一种非维生素A源的酮类脂溶性类胡萝卜素,具有抗氧化、增强机体免疫力、抗肿瘤、抗糖尿病、抗肥胖和预防心血管疾病等多种生物活性。然而,由于其较差的水溶性、稳定性和口服吸收率,限制了其在食品行业的应用。蛋白质是递送生物活性物质的重要运载体系,能有效提高类胡萝卜素的水溶性和稳定性,但其促吸收效果还有待进一步改善。这是因为膳食脂质对于类胡萝卜素的吸收至关重要。相关
甲壳纲水产品是常见的“八大类过敏食物”之一,由其引发的食物过敏现象越来越普遍。肌质钙结合蛋白(sarcoplasmic calcium-binding protein,SCP)是甲壳纲水产品的一种新型过敏原,本文对拟穴青蟹(Scylla paramamosain)中SCP的抗原表位和钙离子结合区域进行深入研究,利用合成肽技术结合血清学实验对其线性表位进行验证;利用定点突变技术对SCP构象表位和钙离
随着超精密加工技术的日益成熟,表面功能织构的制备已成为精密加工领域研究热点。通过电铸和压印技术可以大面积、低成本地将原始模表面织构复制到薄膜上制备出光功能织构膜。原始模加工误差在精密电铸时会直接复制在工作模具上,进而影响光功能织构膜的制造精度,所以原始模的加工精度成为制约光功能织构膜光学性能提高的主要因素。本文分析制约三棱锥光功能织构膜原始模加工精度的问题,提出改善切屑形态的切削工艺优化方案。首先