基于深度学习的蛋白质二级结构预测模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:Tianzhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对蛋白质二级结构进行预测,有助于理解蛋白质的三级结构,进而理解蛋白质的生物功能和蛋白质分子之间的相互作用关系。围绕蛋白质二级结构预测问题,涌现出了大量的计算生物学研究方法,包括基于统计学和机器学习的方法,比如支持向量机、条件随机场、贝叶斯方法等,以及基于深度学习的方法来预测蛋白质二级结构,比如深度玻尔兹曼机方法、卷积神经网络方法和循环神经网络方法。目前对于蛋白质二级结构预测的研究一般采用人工特征提取,难以捕获蛋白质序列特征和二级机构之间的复杂非线性关系。本文模型实现条件随机场和深度神经网络集成,既考虑相邻残基和长程相互作用关系,又能对蛋白质序列的特征和二级结构之间的复杂非线性关系进行描述。由于卷积神经网络是硬编码的,对于捕获蛋白质序列的空间结构不够优化,尤其是对于结构长程相互作用来说效果不佳。为了更好的对蛋白质中的长程相互作用进行建模,实验中结合改进的循环自动编码器来实现。通过自编码器、卷积神经网络、双向循环神经网络等结构得到高层的序列特征信息,然后输入给条件随机场分类器来预测蛋白质二级结构。本实验的数据集采用CB513和Cull PDB公共数据集,采用PSSM打分矩阵进行特征的提取,并对比了其他特征提取方法的优劣。通过实验,本模型能够在Cull PDB数据集上实现72.5%的Q8精度,在CB513数据集上实现了 67.5%的Q8精度。实验结果表明,相比传统的统计学方法和机器学习方法,由于本文模型采用深度神经网络结构训练序列和二级结构的复杂非线性关系,并结合条件随机场进行分类,能够取得不错的效果。
其他文献
为提高本科生实践能力和综合素质,基础医学实验教学示范中心加强硬件现代化建设,降低基础性实验的比例,改善基础性实验的教学方法与教学手段,提高设计性、综合性实验的比例,
肠道寄生虫病是一种严重影响儿童健康的感染性疾病,为了解我市学龄前儿童的寄生虫感染情况,搞好防治工作,我院采用透明胶带粘贴肛门法对4869名托幼儿童进行了寄生感染情况调
完全性左束支传导阻滞(LBBB)是一种较少见却有重要临床意义的心律失常.我们对蓟县医院1995年1月~2002年12月收治LBBB56例病人分析如下.
产后尿潴留是指产后膀胱有尿不能自解,初产妇常见,滞产或手术产后更多,部分病例较长时间不能恢复自主排尿,是产科常见急症,治疗方法较多,疗效不一.我院产科1992~2002年用气海
以提高实验教学质量为目标,介绍了基于Web的医学虚拟仿真实验教学平台在机能实验教学中的应用现状,并从优质资源共享等特点出发分析了该平台的应用前景。以安徽医科大学医学
目的观察经气管导管套囊给予2%利多卡因是否能减轻拔管时的心血管和气道反应以及长期的不良反应。方法随机选择105例患者分为对照组(CS组)、生理盐水组(S组)和利多卡因组(L组)3组,