基于人工神经网络的蛋白质编码区识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:gaofeijacky1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生物的重要组成成分,是生命活动的主要承担者,如何从基因序列中找到编码蛋白质的区域对于我们研究生命活动至关重要。生物学中我们把编码蛋白质的基因序列叫做蛋白质编码区,不同基因在长度、含有的编码区个数、编码区的长度都存在差异性,编码区和非编码区的特征也不明确,这给我们对蛋白质编码区的识别带来很大困难。基于此本文构建了基于人工神经网络的蛋白质编码区识别模型,依赖神经网络的自组织能力自动提取已知蛋白质编码区和非编码区的特征,进而对未知基因中的编码区进行识别。本文针对蛋白质编码区识别问题构建了六种解决方案,总体可以分为两类模型:一是基于MLP、CNN、RNN三种网络结构的蛋白质编码区识别模型,二是利用模型间的差异性构建了基于投票、再学习、模型合并的蛋白质编码区识别集成模型。首先,本文构建了基于MLP的蛋白质编码区识别模型,经过理论分析和实验我们选择了具有一层隐藏层的模型结构;其次,鉴于CNN通过权值共享、池化等操作即能提取样本中的主要特征又能减少模型参数的特征,构建了具有两个卷积层和两个池化层的基于CNN的蛋白质编码区识别模型;然后,根据基因序列类似于时间序列的特征,而RNN能够很好地处理时间序列这一问题,构建了基于RNN的蛋白质编码区识别模型;最后,为了提高对蛋白质编码区的识别准确率,本文利用MLP、CNN、RNN三个人工神经网络的差异性,将基于MLP、CNN、RNN作为基础识别模型,在此基础上构建了基于投票、再学习、模型合并的蛋白质编码区识别集成模型。通过对MLP、CNN、RNN三种蛋白质编码区识别模型在精度、可靠性、运行时间等方面的比较,可以得到RNN在编码区识别问题上耗时最长,但是其准确率最高。而结合了MLP、CNN、RNN的三个集成模型的性能都优于每一个基础识别模型,其准确率分别达到了90.84%、90.72%,89.99%,证明了集成模型的有效性。
其他文献
目的探讨尿碘含量与甲状腺结节的关系。方法根据彩色多普勒超声检查结果将175例健康体检者分为甲状腺结节组(A组,80例)和无甲状腺结节组(B组,95例),用砷铈催化分光光度法测定
社会排斥是许多社会问题的深层根源,长期为社会学者、政策研究者所关注。近年来,心理学者也将目光转向了社会排斥研究。在心理学者的视野中,社会排斥是指个体被某一社会团体
<正>【课程简说】在我执教人教版小古文《杨氏之子》的时候,发现很多老师和孩子都对小古文以及文言的表达很感兴趣,而且对于我在课堂上彰显古文文体特征,学习文言表达方式,贴
适当的午睡可以缓解我们午后的疲劳感,提高午后心境状态、觉醒状态;对于进行了正常夜眠的个体而言,习惯性午睡行为并不是对夜眠不足的补偿;短时午睡对恢复正常体个体身心状态
改革开放以来,我国的食用油行业得到了快速的发展,但油脂、油料的生产和供应局面发生了历史性的巨大转变。据我国粮油学会油脂分会的最新统计数据,我国油脂油料的进口折油总
工作嵌入代表个体与工作的嵌入程度,用于解释个体为什么留在组织中的一系列因素,具有非情感性、多维度的特点。工作嵌入明显区别于工作满意度、组织承诺等组织行为学变量,包
风险基础审计和制度基础审计都是将审计风险模式应用于审计过程的一种审计程式。但是,在我国的审计文献中,大多强调制度基础审计,而对风险基础审计的理论和实务却很少阐述,并在审
目的:探讨大学新生社交焦虑与五态人格的关系。方法:采用随机抽样方法,运用社交焦虑量表(IAS)与五态人格问卷对240名大学新生进行问卷调查。结果:大学新生的社交焦虑水平总体
随着经济水平的不断提高,农村区域经济发展状况越来越受到关注。基于此,本文立足于当前玉林市农村区域经济发展现状,针对其在农业基础设施、生产环境与生产条件方面出现的问
在素质教育背景下,音乐也成了高中阶段较为重要的一个组成部分,其对于陶冶学生情操、缓解学生压力、促进学生全面发展有着十分重要的作用,尤其是歌唱教学这一部分,为了能够真