论文部分内容阅读
随着生物信息技术不断发展并走向成熟,生物信息学为生命科学领域带来了革命性的进步,极大地推动了生命科学的发展。蛋白质的二级结构是研究蛋白质功能与结构之间如何联系的基础,对药物和酶的设计至关重要。但是通过实验的方式获取蛋白质二级结构需要大量的成本,很难推广使用。近几十年来,科学家们致力于使用机器学习的方法预测蛋白质的二级结构,但预测准确率仍没有达到理想的高度。如何提升蛋白质的二级结构预测准确率成为目前生物信息学领域的一个研究热点。考虑到蛋白质二级结构的形成受到多种因素的影响,本文对应地从氨基酸的表示学习方法、蛋白质二级结构预测模型、融合蛋白质空间结构信息的预测模型三个方面对蛋白质二级结构预测方法进行研究。主要工作包括:氨基酸的表示是蛋白质二级结构预测任务的基础,目前主流的氨基酸表示方式为one-hot向量。但由于one-hot向量过于稀疏,难以存储氨基酸的特性信息。为了捕捉氨基酸自身的物理化学特性和进化信息,本文提出了一种氨基酸嵌入向量和位置特异性矩阵(Position-Specific Scoring Matrix,PSSM)相结合的氨基酸表示学习方法,将蛋白质序列转化为矩阵,更好地表示氨基酸信息。在蛋白质二级结构预测算法方面,为同时提取特定氨基酸的局部上下文与远距离依赖信息,本文将门机制引入到卷积神经网络框架中,提出了一种新的蛋白质二级结构预测模型CNNH_PSS。在CB6133和CB513蛋白质结构预测公开数据集上准确率超越目前已知最好模型,且训练收敛速度加快近50倍。考虑到蛋白质二级结构的形成受到蛋白质结构性质的影响,本文进一步引进了蛋白质溶剂可及性(Relative Solvent Accessibility,RSA)预测任务,并使用多任务学习方法提取蛋白质溶剂可及性相关特征以辅助蛋白质二级结构预测。针对现有多任务学习框架对相关任务信息利用不充分的问题,提出了一种端到端的迭代多任务学习框架,在CB6133和CB513蛋白质预测公开数据集上的准确率超越了CNNH_PSS模型,达到了目前已知的最优性能。