基于深度学习的蛋白质序列分类问题的研究与应用

来源 :电子科技大学 | 被引量 : 7次 | 上传用户:kjtx123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抗氧化蛋白质能修复人类的DNA损伤,在癌症治疗等方面发挥巨大的作用,因此抗氧化蛋白质序列的分类预测在药物学中至关重要。蛋白质分类问题已成为蛋白质组学研究中的一个重要分支,自实施人类基因组计划至今,各种不同类型的生物数据数量迅猛增长,通过生物化学实验的方法鉴定蛋白质序列的类别十分耗时耗力,因此生物信息学对蛋白质信息的鉴别迫切需要从自动化的计算方法中获得支持。数据挖掘作为一种融合了统计学和数据库知识等新发展的技术,为生物研究者在数据分析和信息挖掘方面提供了便利,为识别和挖掘蛋白质信息等提供了便捷的方法。本文主要研究了数据挖掘中兴起的深度学习方法在蛋白质序列分类中的应用,主要内容如下:1.介绍了蛋白质一级序列的特征提取和分类方法。蛋白质一级序列包含足够的信息来预测蛋白质分子的生物功能,从其中提取的特征决定了后续分类器能达到的最佳性能。本文中应用生物中广泛使用的二肽组成来描述蛋白质序列信息,该特征提取方法无需借助其他任何信息,具有计算简单、快速的优点,对后续构建的分类器的性能好坏有决定性作用。2.提出了基于深度学习的蛋白质序列分类模型。较于依靠人工工程构造特征提取器的传统机器学习方法,深度学习本质是一种特征学习方法。深度学习将原始数据通过非线性的模型转变成为和分类有强关联性的抽象表示。本文的模型首先通过由编码器和全连接网络组成的特征学习网络,从原始特征向量学习到压缩的抽象特征,再使用t-SNE方法将抽象特征降维到二维空间中,最后放入分类器SVM对蛋白质序列进行识别。实验表明该模型其有较高的抗氧化蛋白质的识别效果,在本文的实验数据上达到F1值0.8842,MCC值0.7409,准确率97.05%,召回率81.27%,优于传统的机器学习方法。3.基于文中提出的模型,开发了在线抗氧化蛋白质识别web服务。该服务具有在线预测用户提交的蛋白质序列是否为抗氧化蛋白质的功能,此外还提供本文所用到数据集下载,方便用户使用与研究。
其他文献
在分析十堰市具有天然中药资源优势、人才优势、产业优势的基础上,提出了建立“中国·武当药谷”的构想,并给出了相应的对策、建议。
本文提出了基于心理生理信息的计算机辅助教学(CAI)系统。该系统利用传感器将反映人的心理情绪变化的人体心理生理信息转变为电信号输入计算机,不仅能根据学生的按键情况,而
AIM : To study the effects of PAMd ( Phenolic alkaloids from Menispermum dauricum on Brain ischemia and ischemic reperfusion injury in mice. METHODS : Bilateral
<正> 一、引言一个基于知识的系统(亦称专家系统)通常由四个成分构成:知识获取机构,知识库,识别推理机构,用户界面.设计知识系统目前主要有两种方法.一是基于规则的方法,它是
通过分析影响对外工程承包企业资金短缺的因素,指出应从政府、企业两方面入手才能根本解决这一问题,并提出相应的对策.
周恩来的《大江歌罢掉头东》,这首脍炙人口的励志诗已广为人们传颂。但这首绝句的创作时间和背景,却众说纷纭,而比较一致的时间是在“东渡前”即1917年9月。据考《周恩来旅日日
采用乳液聚合制备了新的有机硅改性的聚醋酸乙烯酯(PVAc)聚合乳液。考察了有机硅改性的PVAc乳液及胶膜的性能。结果表明该乳液具有优良的成膜性,粘接强度高,优良的耐水性和耐寒性。
胆为肝之腑,肝胆相依互为表里,有勇有谋,有藏有泻,有升有降,阳木降而阴木升,若<易>之泰卦(三三上坤,三下乾),阴升而阳降,阴阳相应,肝胆相互协调而主乎疏泄,为升降之枢,功上通
本文介绍GF-10-12微码控制器的工作原理、主要特点和几个技术难点。GF-10-12采用微程序设计技术,大大简化了加法部件和乘法部件的逻辑设计,给用户提供许多性质不同的指令,从