基于机器学习的烟草花叶病毒与植物抗性蛋白分类方法研究

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:rinimalebi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是基因表达的产物,是执行生命功能的基本载体,使得蛋白质组学成为后基因组时代生命科学中重要的研究领域。一般而言,相较于动物基因组,植物的基因组大、重复序列多且杂合度高,因此其蛋白结构功能多样性更为复杂。准确预测植物蛋白质,对植物蛋白质进行精准分类,是在分子层面深入理解植物生命活动物质基础的前提。随着植物基因组的发展,植物蛋白质数据大幅增长,通过传统的生物实验的方法确定植物蛋白质类别耗费时间且价格高昂。因此,利用机器学习算法对植物蛋白质进行识别是十分有必要的。本论文基于机器学习算法,研究有关植物蛋白质的两个关键问题:烟草花叶病毒蛋白质的分类方法研究及其抗性蛋白质的分类方法研究。本文具体内容如下:植物染病可能为多种病原体共同侵染导致的,若想根治则需要明确其感染病原体种类。烟草花叶病毒是一种常见的植物病毒,可侵染植物种类多达350余种。普通烟草花叶识别方法费时费力,因此,利用机器学习方法进行烟草花叶病毒蛋白质分类具有重要意义。对此,本文从UniProt数据库中收集烟草花叶病毒蛋白质,通过去冗余等操作构建基准数据集。使用基于烟草花叶病毒蛋白质序列信息、基于氨基酸组成成分以及理化性质、基于K间距氨基酸对的组成的特征提取方法,并将基于蛋白质序列信息与基于蛋白质理化性质特征提取方法、基于K间距氨基酸对的组成与基于蛋白质理化性质特征提取方法组合,构建一个混合分类模型。独立测试集的结果表明,支持向量机算法结合基于蛋白质理化性质的方法准确率获得了最优结果,利用此模型对烟草花叶病毒蛋白质进行分类具有较高的准确性和鲁棒性。这也为之后进行更深层次分析烟草花叶病毒蛋白质提供了线索。植物抗性蛋白是植物在生长发育过程中为了应对复杂的环境变化以及病虫害的侵染进化形成的。植物抗性蛋白质的分类工作有利于进一步探索植物对病毒的抗病机制。本文收集了来自多种植物的抗性蛋白质数据,对负面样本进行去冗余处理,构建基准数据集。基于不同的蛋白质编码方式对蛋白质进行特征提取,以便模型可以提取有效的特征,使用基于氨基酸序列信息、基于氨基酸对、基于分组肽的组成、基于氨基酸属性信息等方法,并引入机器学习方法以及卷积神经网络方法,对植物抗性蛋白质进行分类,根据训练结果,进一步将表现优异的蛋白质特征提取方法进行组合。通过实验结果以及评价指标的分析,支持向量机算法结合CTDT CTriad的分类方法具备较高的准确率与鲁棒性。
其他文献
随着我国住房工业化进程的加快,以及国家有关政策的支持,装配式的建筑模式成为必然。但是,各领域对装配式建筑的质量所存在的诸多问题仍持保留态度。多种装配式建筑质量问题层出不穷,说明了装配式建筑模式的总体运行效率低、质量难以得到保障。其中既有行业自身的原因又有供应链方面的原因。由于装配式建筑具有多级性和分散性等特点,这使得装配式建筑的质量管理面临着巨大挑战。由于供应链模式的运用使得最终的装配式建筑必须由
学位
随着经济的不断发展和技术的创新突破,产品更新换代速度加快,在闭环供应链中开展以旧换新业务已经成为回收废旧产品的新模式。以旧换新既可以促进环境的可持续发展,又可以刺激需求,推动产品换代升级,受到企业和消费者的广泛关注,在近年的购物促销活动中,制造企业纷纷推出以旧换新业务,例如华为、OPPO、Apple等。制造企业开展以旧换新业务受到市场环境、产品种类和回收渠道等因素的影响,因此,如何对以旧换新业务进
学位
行人重识别的目的是识别多个摄像机下具有指定身份的行人图像。目前,基于监督学习的行人重识别方法已取得了优异的性能。然而,该类方法严重依赖于带标注的数据。基于以上问题,大量研究者开始将注意力转向无监督行人重识别领域。依据是否使用源域数据,现有无监督学习方法可以被分为跨域方法和完全无监督方法。本文分别对以上两种方法中存在的问题进行了研究,主要研究内容如下:(1)对近年来国内外的相关研究进行了详细梳理和分
学位
玉米作为全国乃至全世界最主要的粮食作物之一,在食用、饲料用途、工业加工等方面发挥着重要的作用。近年来,随着全球气候异常以及玉米品种更换等原因,玉米叶部发生病害的现象明显增多,这给玉米的生产带来了极大危害。常见的玉米叶片病害有十几种,其中以大斑病,灰斑病与锈病为主。传统的玉米叶片病害分类主要靠工作人员肉眼观察的方式,然而该方法不仅判定效率低下,而且往往受主观因素制约。因此,有必要寻觅出一种高效且精准
学位
冬小麦是山东省嘉祥县种植面积最大的粮食作物,由于多年的秸秆还田,土壤以旋耕为主,小麦病虫害逐年增多,对小麦的危害越来越严重。小麦发生病虫害后施药防治效果较差,药物残留对环境造成一定程度的污染,既浪费大量的人力和物力,又严重制约了小麦优质丰产。小麦种衣剂的推广应用成为防治小麦病虫害的关键措施之一,2020—2021年嘉祥县农业技术推广服务中心联合嘉祥种衣剂经销商在冬小麦生产中进行了对比应用试验,选用
期刊
供应链协调旨在通过契约形式,加强供应链合作关系并改善供应链绩效。随着交易成员的增加,“公司+农户”供应链由传统链式结构向网络化结构转变,这增加了协调的难度。同时,现有契约在商业实践中协调效果有限,导致“公司+农户”供应链协调失败。究其原因主要为:一是现有研究尚未形成有关协调契约结构的系统性理论框架,难以指导“公司+农户”供应链契约方案制定。二是现有解析模型难以刻画多决策者构成的“公司+农户”供应链
学位
森林资源是陆地生态系统中的一个重要组成部分,为人类的生产和生活提供了赖以生存的氧气以及丰富的木材原料,属于可更新可再生的自然资源。因此,快速、准确地获取测树因子(如树高、胸径、冠幅等)一直以来都是森林资源调查的基本工作。目前森林资源调查的主要方式中,人工调查周期长效率低,通常以年为周期;卫星遥感信息量大,更适合大尺度范围内的调查;激光雷达精度高可视效果好,但价格昂贵,难以被广泛应用。随着计算机视觉
学位
太阳能是一种清洁、可靠的可再生能源,已引起国内外学者的广泛关注。在众多的太阳能利用技术当中,光伏(PV)技术特别引人注目,通过使用光伏电池将太阳能直接转化成电能,但与传统发电技术相比,较高的初始成本仍然是其大规模发展的阻碍。聚光光伏(CPV)技术能有效地降低光伏发电成本而被寄予厚望。然而,聚光条件下电池温度急剧升高使得转换效率下降,成为制约该技术推广应用的主要瓶颈。针对聚光光伏传统冷却技术的不足,
学位
随着气候的不规律变化和生态环境的破坏,干旱对农林业生产的影响越来越大。通过栽培抗旱的植物种类,合理利用旱田发展潜力巨大。拟南芥是植物遗传学、发育生物学、分子遗传学的研究的好材料,被誉为植物中的果蝇,因此在植物抗旱领域的研究里,拟南芥发挥着重要的作用。目前研究者们开展了大规模研究用以推断不同基因对植株耐旱功能的影响,并采用各种方法培育具备耐旱能力的植株。其中包括推测蛋白质是否具备耐旱的功能,以此帮助
学位
能源是人类社会发展的推动力,科技与社会发展的数次变革都与其密不可分。面对当前国际能源与环境问题,新型可再生清洁能源的开发和利用被广为关注,特别是生物质能因储量大、来源广泛、再生速度快和整体零排放等特点被认为是极富潜力推进国家“双碳”战略达成的重要可再生清洁能源。在诸多生物质转化利用技术中,水热液化制备液体燃料技术因特别适合于含水量高的生物质,近年在藻类生物质、高含水的陆生植物性生物质及高含水的废弃
学位