基于递归神经网的蛋白质结构域预测方法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:LXX_ACCP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构域是具有特定功能的基本结构单元。它既是蛋白质结构化分类的基础,又与蛋白质进化密切相关。它对于人们认识蛋白质的结构,功能和进化有着重要的意义。因此,蛋白质结构域的研究成为生物信息学中的一个重要问题。通过专家手工来确定蛋白质结构域是非常可靠的。然而处在数据量急速增长的后基因组时代,人类专家的处理能力已无法满足数据分析的需要,这时自动化的预测方法则显得尤为重要。自动化的结构域预测方法可分为基于模板的方法和从头预测的方法。尽管基于模版的方法已经取得了较大的成功,但它在缺乏相应的模版信息时就不再有效。仅从序列信息来预测结构域的方法(从头预测)成为结构生物学和序列分析中的一个重要的问题。目前许多机器学习方法,如隐马尔可夫模型、神经网络、支撑向量机等已经被应用于蛋白质结构域边界的从头预测中。在这些方法中,基于双向递归网络(BRNN)的方法性能较为突出。但由于它在理论上存在对序列长程相关性的学习困难,导致模型在整体精度上并不是很高(69%),尤其是在蛋白质的多域的预测方面性能较低。基于对传统递归网络理论缺陷的分析,本文提出了一种新颖的基于长短记忆(Long Short-Term Memory: LSTM)递归网络的蛋白质结构域边界预测模型——IPSP-LSTM。该模型充分考虑蛋白质序列处理对模型的要求,从理论上解决了LSTM网络在蛋白质序列学习中记忆细胞输出的饱和问题,并且通过选择性的记忆和遗忘成功地对蛋白质序列中的长程相关性进行建模。实验结果表明较以前的基于机器学习(MLP, SVM, BRNN)的方法,该模型在整体预测和多域蛋白质链预测中取得了更好的效果。与基于BRNN的方法相比,本文提出的方法在双域的预测的敏感度和特异度两项指标上取得了更加平衡的结果。值得一提的是,新的模型对输入窗口的依赖性很小,这在一定程度上减轻了网络在扩大窗口过程中可能会面临的“维数灾难”问题。
其他文献
根据IEEE的定义,嵌入式系统是控制、监视或者辅助设备、机器和车间运行的装置。它以应用为中心、以计算机技术为基础,并且软硬件可裁剪,适用于应用系统对功能、可靠性、成本、体
期刊
期刊
期刊
期刊
期刊
随着移动通信的迅猛发展,人们对无线定位技术的研究越来越关注。CDMA作为第三代移动通信系统的主流标准,对其系统中无线定位技术的研究具有重大的现实意义。本论文对无线定位的
期刊
期刊
期刊