基于卷积神经网络的蛋白质序列泛素化分类算法的研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wangqiang1818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的分类预测问题是生物信息学中一类比较重要的问题。以蛋白质的泛素化为例,这是一种与各类生命活动有着重要关联的特异性修饰的过程。泛素化在蛋白质的定位、代谢、调节和降解中都起着十分重要的作用。传统的生物实验的方法来判断泛素化蛋白并检测泛素化位点需要大量的人力物力,若能使用其它方法事先筛选出可能表现出泛素化的蛋白质,再进行生物学实验,就能节省大量的成本,产生巨大的价值。而目前的相关研究主要是基于传统机器学习算法的预测模型,大都集中在泛素化位点的预测上而不能判断未知蛋白能否被泛素化,并且还存在着准确率低,模型检验不合理等问题。同时,这类算法还需要大量人为标注的额外属性信息,无法适用于那些属性不全或者全新的蛋白。而深度学习是机器学习的一个重要分支,神经网络模型又是深度学习中的主要模型之一。这类相关方法是当前利用计算机来研究医学和生物信息学的重点方法,并在多个相关领域都获得到巨大突破。本文从大量的蛋白质序列样本中筛选出正负样本,并对正样本进行扩征。根据蛋白质的性质和生物信息学相关工具,对蛋白质的序列进行了预处理,让其能够分割成等长的部分。并且在不影响未知蛋白预测的前提下,在判别标签中加入了可泛素化位点信息。结合独热编码和AAindex蛋白质信息库对序列数据进行编码。基于这类问题的特殊性和深度学习的空前成就,本文结合卷积神经网络的相关结构和特点,设计了一种仅使用蛋白质序列信息的分类预测模型。此外,还实现了基于循环神经网络的预测算法,并将其和本文提出的模型进行了比较与分析。在实现了多种数据处理方法和深度学习模型之后,本文提出了一种用于蛋白质序列分类的通用流程。在面对其它蛋白质性质时,只需要根据这类性质的特点对输入的数据做一些简单的改动,就能将该模型整体迁移到新的问题上来。最后,为了广大研究者可以便利地使用本文产出的成果,设计并实现了使用本文模型构建的蛋白质序列泛素化在线分类预测网页平台。根据可能的使用场景,对该平台进行了优化,并进行了相关的压力测试。在蛋白质的泛素化预测这一具体的问题上,和传统的机器学习方法相比,在数据的复杂性上有了明显的下降,数据处理的难度的变得更加简单。在各个模型都使用了各自的全量数据时,本文提出的模型和最好的SVM算法在准确率上接近,明显优于其它机器学习模型。在数据信息量接近时,本文提出的方法在准确率等各项指标上均优于现阶段的传统机器学习方法。
其他文献
科研项目中,外场试验需要多部门的相互协作,因此组织管理显得尤为重要。本文针对科研项目外场试验组织管理办法进行初步探讨。
实效性是思想政治教育的一个关键问题,反映着思想政治教育目标的达成情况,探索新时期高校思想政治教育的实效性具有重要意义。面对我国思想政治教育弱效、低效的态势,通过对
以明水县2016年林地变更调查成果报告的林地资源现状数据为基础,对该县的林地动态变化及变化原因进行了分析,为提高林地监管能力,加强林地保护和管理,保持林地资源的真实性、
针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法。利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结
目的探讨使用iFlow彩色血流编码技术在肝细胞癌经肝动脉化疗栓塞术(TACE)前后血流动力学改变的实时量化分析中的价值。方法收集2015年12月-2017年1月于上海市第五人民医院确
正如蔡崇信成为马云、蔡崇信家族办公室的管理者一样,许多顶级CFO或者金融人才在长期伴随企业共同成长的基础上,和企业家也结下了深厚的友谊以及值得信赖的关系。而富豪家族
研究初中数学教学过程中运用情感教育,针对阅读教学进行系统分析,探索情感教育在教学中的价值.寻找阅读与情感教学的相交点,分析具体的实施方法和策略.为培养学生的学习兴趣
影片《面纱》讲述主人公沃特和吉蒂从繁荣富强的英国到贫困落后的中国生活的凄美爱情故事。而在这个爱情故事背后,可以看到西方霸权思想下的中国、中国人和拯救者沃特的形象
【舆情回放】11月24日,成都天府新区华阳街道办事处城市管理办公室以“占道经营”为由收缴了204辆共享单车。目前,共享单车已取回。相关人士指出,此次华阳城管存在僵化执法、
中国农科院郑州果树所通过猕猴桃胚乳培养获得了三倍体植株。方法是:将猕猴桃未成熟的胚乳接种于添加有3ppm玉米素、O.75—2ppm2,4—D、500ppm水解乳蛋自、3%蔗糖的MS培养基