基于机器学习算法的全基因组预测方法研究

来源 :山西农业大学 | 被引量 : 0次 | 上传用户:BlueDragon8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组选择(Genomic selection,GS)是一种新兴育种技术,主要通过利用全基因组标记来预测未知表型。目前GS领域主要的方法是混合线性模型和先验假设的贝叶斯模型,可通过这些模型选择具有高表型值的个体作为候选育种群体。但由于受训练群体规模大小限制、高通量测序数据集的高维性、基因型与环境的互作性质以及分子标记间复杂的互作模式的影响,GS在动植物高效率育种过程中仍具有挑战性。本研究旨在优化基因组预测模型,利用机器学习的特性结合基因组数据和表型数据构建具备适应性强、计算成本低、预测准确效率高的全新基因组预测模型。研究的主要内容有:(1)使用Boosting集成学习框架构建梯度提升决策树(Gradient boosted decision tree,GBDT)模型,实现从基因型标记中预测表型值。使用小麦GS数据集对GBDT进行验证,并与其他七个广泛使用的GS模型进行预测性能比较。(2)利用机器学的特性结合基因组数据和表型数据构建了GBDT、XGBoost、KRR、KNN、RF、SVR、Nu SVR和linear SVR八个基于机器学习算法的基因组预测模型,并对机器学习进一步探索,开发了一个全新的基因组预测模型ELGP(Ensemble learning-based genomic prediction),并使用一组动物基因组数据对其进行验证。(3)在(1)和(2)的基础上进一步探索机器学习的不同计算范式,开发了基于堆叠集成学习的泛化模型(Stacking ensemble learning generalization model,SELGM),同时利用小麦数据集和荷斯坦奶牛数据据对其进行验证。研究的主要结果如下:(1)GBDT与BL、BRR、Bayes A、Bayes B和Bayes C模型在Hold-out交叉验证方法下的整体预测性能相似,但低于RRBLUP模型。尽管RRBLUP模型预测的相关性比GBDT模型高,但对于部分性状,GBDT模型选择高表型值个体的能力仍然高于RRBLUP,同时标记子集的大小会影响GBDT的预测准确。当使用10折交叉验证方法时,GBDT在八个性状中的预测性能整体优于贝叶斯模型。Bayesian模型的准确性取决于MCMC的迭代次数,并且计算效率远远低于GBDT模型。(2)ELGP方法的表现优于其他八种基础学习者。对于产奶量(Milk yield,MY)性状、乳脂率(Milk fat percentage,MFP)性状和体细胞得分(Somatic cell score,SCS)性状,ELGP的皮尔逊相关系数比八个基础学习器的平均值分别提高了12.14%、14.99%和15.56%,ELGP的半径指数比八个基础学习器的平均值分别降低了15.11%、13.72%和18.29%。除SCS性状外,ELGP对其余性状的预测性能比BRR的高。此外,我们通过对不同的基础模型进行组合,结果发现ELGP1(由GBDT,KRR,SVR,XGBoost,Nu SVR and linear SVR)的结果是所有模型中最好的。同时,交叉验证方法的选择会提高模型的预测性能。(3)SELGM在小麦数据集和荷斯坦奶牛数据就中的预测性能整体优于其他的预测模型,并且拥有最小的预测误差值。SELGM在小麦数据集中相对于基础模型和贝叶斯模型,预测准确性的提升效果要高于荷斯坦奶牛数据集的提升效果。SELGM相对于ELGP更好的规避了预测容易过拟合的现象,并进一步提高了预测准确性。本研究从机器学习的角度出发,构建多个基于机器学习基因组预测模型,进一步拓展和丰富基因组预测方法体系,为机器学习在基因组学领域的应用提供了线索;同时对机器学习在基因组预测领域中进行探索,基于不同的集成策略构建ELGP和SELGM两种全新的基因组预测方法,相对于被广泛使用的Bayesian模型,具有更高的预测性能与计算效率,更符合实际育种的需要。
其他文献
随着全球气候变化加剧,小麦生长季中干旱发生的频率有增加的趋势,干旱缺水已成为限制我国小麦生产的严重问题,加强干旱对小麦生理特性的影响研究是提高我国小麦生产效率的一个重要途径。光合作用是作物物质代谢和能量转换的基础,干旱胁迫会造成小麦光合作用能力下降、导致小麦减产。高光谱技术能够定量分析作物群体生长发育过程中的细微变化,具有快速、实时和无破坏性监测的特点,为冠层尺度冬小麦光合特性的监测提供了方法。因
学位
棉花是集纤维、蛋白和油脂一体的重要经济作物。成熟棉花种子含油量可达36~45%,其中约70%为易氧化的亚油酸(C18:2?9,12)等不饱和脂肪酸组成。种子油脂的氧化不仅影响成品油加工和品质以及种子耐储性,亦可降低种子活力和萌发率,损伤幼苗形态建成和生长发育。引起种子脂肪过氧化的关键酶是脂氧合酶(Lipoxygenase,LOX,EC 1.13.11.12)。LOX是含有非血红素离子的双加氧酶,能
学位
<正>11月11日,财政部召开会议正式聘请来自中国社会科学院、清华大学、北京大学、中国人民大学、中国政法大学等科研机构、高等院校的14位法学专家作为财政部的法律顾问,标志着财政部法律顾问制度正式启航,法治财政建设迈上了新台阶。财政部部长助理许宏才出席会议,代表部党组为法律顾问颁发聘书。他指出,建立法律顾问制度,是贯彻落实党的十八届三中、四中、五中、六中全
期刊
为明确干旱胁迫接种AM真菌对燕麦土壤-植株氮、磷相关指标和产量的影响,揭示影响燕麦籽粒产量和植株氮、磷相关指标的主要土壤因素,探求评价干旱胁迫接种AM真菌燕麦土壤氮、磷相关指标和植株氮、磷相关指标发生变化的代表性指标开展了本研究。试验以燕麦“坝莜18号”为材料,在2020-2021年进行盆栽控水,设置4个处理:75%NAM(75%相对含水量,不接种AM真菌),75%AM(75%相对含水量,接种AM
学位
硅基计算机发展至今,面对摩尔定律的逼近和海量信息处理需求稍显乏力,因此研究者从未停止探索其他新型计算方式。DNA计算是一门融合信息科学、生物技术、数学与自动化等多个领域的交叉学科,具备信息容量大、并行性高和保留生物活性等特点,相关研究涉及分子计算、信息存储、大数据分析、精准医疗等前沿方向。以DNA tile、DNA折纸为代表的自组装纳米技术为DNA计算提供了可编程分子平台。然而尺寸受限的DNA折纸
学位
许多证据显示,近年来城市化的迅速发展,城市密度与生活节奏的显著提升,加剧了人们患有广泛性精神焦虑、心境障碍等各类心理健康问题的风险[1]。国内外研究表明,心理健康问题的年轻化趋势日益明显,大学生群体的心理健康状况遭受严峻挑战。环境心理学的研究指出,当人们置身于自然绿色空间时,压力反应能得到有效缓解、消极情绪也会显著降低,身心健康状况也会明显改善[2,3]。在公共健康大背景之下,校园环境的恢复性效益
学位
干旱是限制我国小麦生产主要的环境因素之一,筛选抗旱小麦品种,挖掘小麦抗旱相关基因位点对我国小麦生产具有重要意义。本研究以来源于不同地区的362份小麦品种组成的自然群体为试验材料,分别于2020年(E1)和2021年(E2)在苗期干旱(PEG-6000)胁迫下,测定小麦苗高、根长、根条数、地上部鲜重、地下部鲜重、地上部干重、地下部干重、根冠比、植株总鲜重以及植株总干重的表型值,并计算其抗旱系数。然后
学位
硒具有抗衰老、预防癌症、增强人体免疫力等重要功能,是谷胱甘肽过氧化物酶和硫氧还蛋白还原酶等的重要组成部分,对人和动物至关重要。缺硒会引发一系列疾病,危害人体健康,人类补硒的主要来源是食物,可以通过生物强化提高食物中的硒含量满足人类对硒的需求。苦荞作为山西省的特色杂粮之一,富含丰富的营养物质,研究富硒苦荞生产具有重要意义。由于硒硫理化性质相似,在农作物体内具有相同的吸收同化途径,硒的安全剂量和中毒剂
学位
谷子(Setaria italica)是我国重要的粮食作物,其籽粒的直链淀粉和氨基酸含量是决定谷子品质的重要组成部分。本研究采用近红外光谱法测定355份谷子自然群体材料的直链淀粉和氨基酸含量,结合谷子群体材料重测序基因型数据进行全基因组关联分析(GWAS)和单倍型分析,并筛选其候选基因。鉴定其中的谷子葡萄糖焦磷酸化酶AGPase基因家族成员并进行生物信息学特征分析。主要研究结果如下:(1)355份
学位
人口老龄化发展和我国养老模式决定社区环境适老宜居建设的必要性。上肢功能在老人的日常生活活动中发挥着重要作用,各类精细操作活均涉及到上肢的运动。目前与老人上肢相关研究应用主要集中在人体工程学的人体尺度,少有关注到老人上肢活动需求和障碍。在以上背景下,本研究关注到上肢活动中普遍存在的够物需求,借助康复医学中的运动控制研究,帮助更加全面地分析上肢够物过程,挖掘老人衰老对其够物的潜在影响。并聚焦到老人社区
学位