基于机器学习和序列信息的抗氧化蛋白分类方法研究

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:jaz23cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抗氧化蛋白对于药物的开发和筛选具有十分重要的意义。抗氧化蛋白的鉴定已成为药物开发的关键工作之一,同时也是生物信息学领域研究的热点问题。传统的生物化学鉴定方法存在耗时长、费用昂贵等问题。随着蛋白质组学的发展、计算机硬件性能的提升以及机器学习算法的更新,使用数据挖掘和机器学习的方法鉴定抗氧化蛋白以替代传统的生物化学方法,成为了一种趋势。当前抗氧化蛋白的分类方法存在准确率低、速度慢的问题,为了提高抗氧化蛋白分类的精度和速度,本文基于机器学习和序列信息研究抗氧化蛋白的分类方法,具体的研究内容如下:(1)本文提出了一种利用 CKSAAP(Composition of K-spaced Amino Acid Pairs)和CTriad(Conjoint Triad)特征分类抗氧化蛋白的方法。该方法采用SMOTE处理不平衡数据,利用 MRMD(Max-Relevance-Max-Distance algorithm)进行特征筛选。使用 10 折交叉验证训练随机森林分类器,将训练好的分类器应用于测试集得出的准确度为0.8。由于抗氧化蛋白的数量少,在处理不平衡问题时,使用过采样方法可以强化抗氧化蛋白的信号特征。从实验结果来看,SMOTE方法取得了更好的效果。此外,本文分析特征发现,抗氧化蛋白序列中疏水性氨基酸组成的三联体含量高。因此,可以利用蛋白的疏水性分类抗氧化蛋白。(2)在第一个方法的基础上,本文提出了另一种抗氧化蛋白的分类方法AOPM(Antioxidant Protein Classification Method)。AOPM 采用 188D 和 CKSAAP 提取特征集,选择MRMD对特征集进行过滤,使用5折交叉验证训练随机森林分类器。训练好的分类器在测试集上获得了 0.92的准确度。此外,AOPM还对药物数据集(DrugB ank)的数据进行了预测,发现了具有抗氧化性的蛋白质,证明了基于序列信息进行药物筛选的可行性,并为药物研发提供了新思路和解决方案。除此之外,本文构建了一个抗氧化蛋白的分类系统。该系统可以针对用户上传的蛋白质序列训练分类器并分类抗氧化蛋白。用户可以选择已有的方法进行预测,或者使用个人数据集训练分类器。该系统最终实现了在线训练分类器、分类抗氧化蛋白以及输出结果等功能,为科研人员的研究提供了有效的支持。
其他文献
冬小麦是山东省嘉祥县种植面积最大的粮食作物,由于多年的秸秆还田,土壤以旋耕为主,小麦病虫害逐年增多,对小麦的危害越来越严重。小麦发生病虫害后施药防治效果较差,药物残留对环境造成一定程度的污染,既浪费大量的人力和物力,又严重制约了小麦优质丰产。小麦种衣剂的推广应用成为防治小麦病虫害的关键措施之一,2020—2021年嘉祥县农业技术推广服务中心联合嘉祥种衣剂经销商在冬小麦生产中进行了对比应用试验,选用
期刊
供应链协调旨在通过契约形式,加强供应链合作关系并改善供应链绩效。随着交易成员的增加,“公司+农户”供应链由传统链式结构向网络化结构转变,这增加了协调的难度。同时,现有契约在商业实践中协调效果有限,导致“公司+农户”供应链协调失败。究其原因主要为:一是现有研究尚未形成有关协调契约结构的系统性理论框架,难以指导“公司+农户”供应链契约方案制定。二是现有解析模型难以刻画多决策者构成的“公司+农户”供应链
学位
森林资源是陆地生态系统中的一个重要组成部分,为人类的生产和生活提供了赖以生存的氧气以及丰富的木材原料,属于可更新可再生的自然资源。因此,快速、准确地获取测树因子(如树高、胸径、冠幅等)一直以来都是森林资源调查的基本工作。目前森林资源调查的主要方式中,人工调查周期长效率低,通常以年为周期;卫星遥感信息量大,更适合大尺度范围内的调查;激光雷达精度高可视效果好,但价格昂贵,难以被广泛应用。随着计算机视觉
学位
太阳能是一种清洁、可靠的可再生能源,已引起国内外学者的广泛关注。在众多的太阳能利用技术当中,光伏(PV)技术特别引人注目,通过使用光伏电池将太阳能直接转化成电能,但与传统发电技术相比,较高的初始成本仍然是其大规模发展的阻碍。聚光光伏(CPV)技术能有效地降低光伏发电成本而被寄予厚望。然而,聚光条件下电池温度急剧升高使得转换效率下降,成为制约该技术推广应用的主要瓶颈。针对聚光光伏传统冷却技术的不足,
学位
随着气候的不规律变化和生态环境的破坏,干旱对农林业生产的影响越来越大。通过栽培抗旱的植物种类,合理利用旱田发展潜力巨大。拟南芥是植物遗传学、发育生物学、分子遗传学的研究的好材料,被誉为植物中的果蝇,因此在植物抗旱领域的研究里,拟南芥发挥着重要的作用。目前研究者们开展了大规模研究用以推断不同基因对植株耐旱功能的影响,并采用各种方法培育具备耐旱能力的植株。其中包括推测蛋白质是否具备耐旱的功能,以此帮助
学位
能源是人类社会发展的推动力,科技与社会发展的数次变革都与其密不可分。面对当前国际能源与环境问题,新型可再生清洁能源的开发和利用被广为关注,特别是生物质能因储量大、来源广泛、再生速度快和整体零排放等特点被认为是极富潜力推进国家“双碳”战略达成的重要可再生清洁能源。在诸多生物质转化利用技术中,水热液化制备液体燃料技术因特别适合于含水量高的生物质,近年在藻类生物质、高含水的陆生植物性生物质及高含水的废弃
学位
蛋白质是基因表达的产物,是执行生命功能的基本载体,使得蛋白质组学成为后基因组时代生命科学中重要的研究领域。一般而言,相较于动物基因组,植物的基因组大、重复序列多且杂合度高,因此其蛋白结构功能多样性更为复杂。准确预测植物蛋白质,对植物蛋白质进行精准分类,是在分子层面深入理解植物生命活动物质基础的前提。随着植物基因组的发展,植物蛋白质数据大幅增长,通过传统的生物实验的方法确定植物蛋白质类别耗费时间且价
学位
随着新材料和微加工技术的不断发展和进步,微小型机电装置民用和军事等领域被广泛应用。在机电装置微小型化进程中,设计出能量密度高、续航持久且稳定高效的微型动力系统是当前研究的重点。鉴于碳氢燃料燃烧的优势,基于碳氢燃料燃烧的微型动力系统被提出,且有望解决微小型机电装置的供能问题。微尺度燃烧器作为微动力系统的核心,是其技术发展的关键所在。随着微燃烧器尺寸的减小,其面体比不可避免的增大,因此出现了热量损失显
学位
“绿水青山就是金山银山”,林业在环境保护方面具有重要研究价值和意义。随着计算机时代的到来,计算机视觉技术被广泛应用到各个行业中,若将计算机视觉应用在林业工程当中,对林业的发展具有重要突破意义。计算机视觉改变着传统林业的研究方法,林业信息工程技术日渐成熟。针对林业工程中对树木数量统计以及树高测量方法存在的结果准确性不高、操作困难、专业知识转化为规则困难等问题,利用计算机视觉理论、机制、方法以代替人工
学位
环境污染是全球面临的主要挑战之一。其中,由于工业生产活动产生的重金属、染料、抗生素和有机污染物是导致水、土壤和空气污染的主要源头。采取合适的污染物处理技术可以有效减小污染物对地球环境所构成的威胁。为此,一系列诸如电解、化学絮凝和催化降解,等技术被开发用于去除污水中的污染物。这些基于分解污染物的方法存在某些缺陷,诸如高成本、材料制备复杂、分散性差,等。以吸附法为基础的处理手段克服了这些缺点,因而被广
学位