基于机器学习的基因启动子预测方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:liguiming321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因启动子是一段位于转录起始位点附近的核苷酸序列,它与RNA聚合酶相结合以确保基因准确转录。在基因调控和治疗、靶向药物研发、亲缘关系鉴定等研究领域,启动子都发挥着关键性作用。因此,从基因组序列中高效地识别启动子已成为一个重要的科学问题。传统的生物实验方法识别启动子耗时、费力,近年来研究界提出的许多计算方法虽然具有高效、便捷等优点,但随着基因组研究的逐步深入,发现物种的基因形态、结构和功能更加复杂,现有方法面临着计算瓶颈问题。鉴于此,本文研究基于机器学习的基因启动子预测方法,进一步提高预测性能,为启动子相关研究提供新的途径,对促进基因调控研究和靶向药物研发具有重要的理论价值和应用前景。主要研究内容与结论如下:(1)启动子多源特征融合方法研究针对现有启动子特征提取方法的单一性,导致无法全面解释启动子特性的问题,本研究设计一种启动子多源特征融合方法。该方法采用统计分析方法提取序列特征,构建深度学习模型提取深度特征;设计并实现特征融合和基于XGBoost的特征选择方法,确定最佳特征集。实验结果表明:启动子多源特征融合方法能够结合异质特征的优点,全面表示了启动子特性,为启动子预测模型构建和跨物种启动子预测分析提供了特征基础。(2)启动子预测模型构建方法研究针对现有启动子预测模型的性能和泛化能力欠佳的问题,提出了基于机器学习的启动子预测模型PredPromoter-MF。在常见的原核和真核生物启动子数据集预处理的基础上,针对样本量不均衡的大肠杆菌启动子多分类问题制定了一种多级二元分类方案;并构造了基于深度森林模型的两层预测框架,对启动子及其类型进行分类;使用SHAP方法可视化评估模型。实验结果表明:在枯草杆菌、大肠杆菌、人类、小鼠、果蝇和拟南芥数据集上进行五折交叉验证,PredPromoter-MF的Accuracy值比现有方法分别高出1.04%、0.05%、10.96%、1.66%、6.83%和3.21%。(3)跨物种启动子预测分析方法研究鉴于基因组研究时代的模式生物和跨物种测试研究策略的逐渐深入,提出了基于机器学习的跨物种启动子预测分析方法。该方法首先基于人类和小鼠启动子数据集设计一种增强数据模型,构建增强数据集;然后评估机器学习模型的独立测试性能,对性能最优的NGBoost算法参数寻优,训练跨物种启动子预测模型CPPM;最后使用样本序列分析方法对人类和小鼠启动子的富集性进行可视化分析。实验结果表明:在人类的TATA-Box启动子和所有启动子的独立测试集上进行实验,CPPM的Accuracy值比主流跨物种预测方法分别高出15.08%和9.12%。序列可视化结果验证了方法的可行性,为分析启动子及其他调控元件提供新的视角。
其他文献
2022年颁布的《义务教育语文课程标准》中关于“国家通用语言文字”的新表述,是自1904年我国语文课程独立设科以来首次在课程标准中出现的。从百余年语文课程发展历程来看,对“语文”的界定经历了清末的官话,民国的国文、国语,新中国成立后的普通话等,最终科学、全面地表述为“国家通用语言文字”;代替了以往“语言文字”等课程对象的含混表达,凸显了“代表一国之语言”的国家通用语言文字的内涵和价值取向。从言文统
期刊
随着奶山羊养殖模式逐渐转向集约化、精细化,利用智能化设备实现奶山羊行为监测能够提供丰富的数据来源,自动获取目标奶山羊的生长状态和行为数据,对奶山羊的行为研究、疾病预防以及奶山羊的精细化饲养具有重要价值和现实意义,而精细化养殖的关键是实现对目标奶山羊的运动数据进行连续、稳定、实时地采集。为此,本文拟初步设计开发一种基于ZigBee的奶山羊运动数据采集系统,通过终端采集节点借助运动传感器和温度传感器获
学位
2018年3月17日,第十三届全国人大一次会议审议通过国务院机构改革方案,该方案对国税地税征管体制改革作出了重要决定,将省级及以下的国税地税机构进行合并。税收征管体制改革以来,税务机关稽查机构和稽查人员调整情况基本到位,各项工作也稳步开展,但是随着税收征管体制改革的逐步推进,一些税务稽查管理方面的问题也随之凸显,制度、能力、力量、水平、知识等各个方面均有待进一步加强。本文以公共政策执行、政府绩效管
学位
营商环境是衡量一个国家和地区软实力和综合竞争力的一个重要标志。“营商环境”指数的提升可以帮助我们从更高的层面上认识和把握企业的营商环境,并通过改革开展税收营商环境建设,是当前经济发展的迫切需要。税收营商环境是其重要组成部分,优化税收营商环境是推进经济现代化、推动经济高质量发展的重要条件。《2020营商环境报告》显示“纳税”指数指数在190个国家中排名105位,较2019年上升9位。我国幅员辽阔,特
学位
土地利用变化研究是全球变化研究的核心主题之一,其研究成果对于优化土地资源配置、实现资源的可持续利用有着重要的指导意义。对于地方政府及土地管理部门而言,掌握土地利用变化规律及与其变化相关联的内在驱动机制,能够作为他们在编制城市规划、谋划发展方向、调控土地发展等工作上不可或缺的科学依据,保障地方城市在快速的城镇化进程中健康地、可持续地发展。本文基于福清市中心城区2009年-2018年间10年的土地利用
学位
在现代规模化的羊产业生产经营和管理中,羊只身份识别是一项实现精准化养殖的基础性的重要工作。在实际生产应用时,基于无线射频识别技术的传统识别方法存在识别距离有限、成本高和耳标易脱落等缺点。近年来,随着养殖场中摄像设备的普及以及人脸识别技术的发展,利用计算机视觉技术实现对个体身份的识别得到了广泛应用,很多基于卷积神经网络构建的羊脸识别模型取得了优异的效果。但现有很多模型存在参数过多、计算复杂度高,难以
学位
铸牢中华民族共同体意识是统一多民族国家建构和集体精神凝聚的应然要求和实践进路。国家通用语言文字作为表征共同体团结统一的典型标识,能够持续塑造共同体的团结和夯实共同体的基质结构,是保障超大规模多民族国家内聚力凝结的重要途径。推广普及国家通用语言文字铸牢中华民族共同体意识应遵循“意识共识—情感共鸣—行为共振”的逻辑进路,通过深化国家通用语言文字教育,强化以共同性为原则的知识生产;突出国家通用语言文字文
期刊
中国“绝学”之“小学”是中华优秀传统文化的重要组成部分。认识和挖掘中国传统文化中的语言文字学“小学”(文字、训诂、音韵)的时代价值,是非常有意义的。推广普及国家通用语言文字是铸牢中华民族共同体意识的重要途径“。小学”与国家通用语言文字,是“源”与“流”关系“。小学”及其工具书编撰与“小学”所负载的“大一统”思想,都有助于铸牢中华民族共同体意识。
期刊
中华民族共同体意识的孕育、形成和发展赓续了数千年,与中华民族通用语言文字的历史演进相互影响、相互促进,形成了互塑的共生性。中华民族共同体意识的历史演进推动了通用语言文字的权威化、普及化。国家通用语的基因传承性与通用文字的历史一致性成为凝聚中华各民族的重要纽带,滋养和铸牢了中华民族共同体意识。铸牢中华民族共同体意识需要推广国家通用语言文字,构建语言认同,巩固文化认同、民族认同和国家认同。国家通用语言
期刊
目的 研究昆山市男男同性性行为人群(men who have sex with men,MSM)艾滋病高危行为特征、人类免疫缺陷病毒(human immunodeficiency virus,HIV)同伴检测等情况,为制定和完善艾滋病防控政策提供参考和依据。方法 通过昆山市MSM社区的非政府组织招募调查对象开展专题调查及HIV同伴检测,收集MSM行为特征及HIV感染情况信息。采用χ2检验评估性行为
期刊