论文部分内容阅读
蛋白质结构域是具有特定功能的基本结构单元。它既是蛋白质结构化分类的基础,又与蛋白质进化密切相关。它对于人们认识蛋白质的结构,功能和进化有着重要的意义。因此,蛋白质结构域的研究成为生物信息学中的一个重要问题。通过专家手工来确定蛋白质结构域是非常可靠的。然而处在数据量急速增长的后基因组时代,人类专家的处理能力已无法满足数据分析的需要,这时自动化的预测方法则显得尤为重要。自动化的结构域预测方法可分为基于模板的方法和从头预测的方法。尽管基于模版的方法已经取得了较大的成功,但它在缺乏相应的模版信息时就不再有效。仅从序列信息来预测结构域的方法(从头预测)成为结构生物学和序列分析中的一个重要的问题。目前许多机器学习方法,如隐马尔可夫模型、神经网络、支撑向量机等已经被应用于蛋白质结构域边界的从头预测中。在这些方法中,基于双向递归网络(BRNN)的方法性能较为突出。但由于它在理论上存在对序列长程相关性的学习困难,导致模型在整体精度上并不是很高(69%),尤其是在蛋白质的多域的预测方面性能较低。基于对传统递归网络理论缺陷的分析,本文提出了一种新颖的基于长短记忆(Long Short-Term Memory: LSTM)递归网络的蛋白质结构域边界预测模型——IPSP-LSTM。该模型充分考虑蛋白质序列处理对模型的要求,从理论上解决了LSTM网络在蛋白质序列学习中记忆细胞输出的饱和问题,并且通过选择性的记忆和遗忘成功地对蛋白质序列中的长程相关性进行建模。实验结果表明较以前的基于机器学习(MLP, SVM, BRNN)的方法,该模型在整体预测和多域蛋白质链预测中取得了更好的效果。与基于BRNN的方法相比,本文提出的方法在双域的预测的敏感度和特异度两项指标上取得了更加平衡的结果。值得一提的是,新的模型对输入窗口的依赖性很小,这在一定程度上减轻了网络在扩大窗口过程中可能会面临的“维数灾难”问题。