基于多尺度残差BiLSTM网络的α螺旋跨膜蛋白拓扑结构预测研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:lfm888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构预测的研究对了解蛋白质功能、促进蛋白质工程以及药物的研发具有重要意义。而跨膜蛋白则是蛋白质中结构比较特殊的一类蛋白,其通过特殊的跨膜结构穿透磷脂双分子层长期稳定地固定在生物膜上,是生物膜功能的主要承担者。因此,跨膜蛋白结构的研究具有非常重要的生物学和医学意义。根据跨膜区结构的不同,跨膜蛋白可以分为α螺旋和β桶状跨膜蛋白两大类。作为跨膜蛋白中重要一类的α螺旋跨膜蛋白,其结构的研究对于跨膜蛋白的功能研究意义重大。由于目前已知结构的跨膜蛋白数量远远落后于各种基因组中这类蛋白的估计数量,进行较低分辨率的拓扑结构预测显得尤为重要,所以利用跨膜蛋白的氨基酸序列信息以及计算生物学的方法来进行跨膜蛋白拓扑结构预测研究成为当前蛋白质结构预测领域新的研究热点。目前已有的α螺旋跨膜蛋白预测方法其准确性,随着已知结构的跨膜蛋白数量的增长,而开始下降。因此开发精确的预测方法迫在眉睫。随着深度学习算法的日渐发展成熟,其在计算生物学领域也取得了突破性进展,因此借助深度学习技术来提高α螺旋跨膜蛋白拓扑结构预测方法的性能具有非常的好的研究前景。虽然目前已有使用深度学习技术的α螺旋跨膜蛋白拓扑结构预测方法,但其方法的稳定性和模型的生物可解释性仍存在创新和改进的空间。本文提出了一种新型α螺旋跨膜蛋白拓扑结构预测方法,利用已知蛋白质序列信息来构建α螺旋跨膜蛋白拓扑结构预测模型。本文方法利用多尺度残差网络来提取跨膜蛋白序列不同尺度的局部关联特征;利用递归神经网络处理和预测序列数据的先天优势,在跨膜蛋白拓扑结构预测领域引入双向长短期记忆(BiLSTM)网络,用于学习全局关联信息和蛋白质序列中潜在的长期依赖关系,最终构建多尺度残差BiLSTM网络。同时在该网络中引入注意力机制(Attention)和Mask网络层,强化关键信息,降低填充补位(padding)带来的消极影响,以增强模型的分类学习能力,提升模型的预测性能。本文的预测方法实现使用简单有效的HHblits图谱特征,获得最优化的实验结果。对最终获得的预测模型,本文将采用严格统一的评估指标作为衡量标准,从单个残基、跨膜螺旋片段和整体拓扑结构三个层面与其他5种最新的α螺旋跨膜蛋白拓扑结构预测方法进行对比分析。对比结果表明,本文预测方法与先前所提到的方法相比拥有更好的预测性能,能够较为精准的对α螺旋跨膜蛋白的拓扑结构进行预测。本文提出的预测方法最终输出的拓扑结构预测结果在符合生物逻辑性的方面仍存在创新和改进的空间。
其他文献
本文,我们研究了二维有界区域上粘性系数依赖密度的可压缩Navier-Stokes方程(Kazhikhov模型)的初边值问题。在β>1的条件下,证明了Dirichlet边值球对称强解的整体存在性。
图像复原问题在数字图像处理研究领域中是一类重要的研究问题,这一问题包括数字图像去噪、去模糊、修复以及超分辨率等。近些年来,期望块对数似然(Expected Patch Log-Likelihood,简记EPLL)算法作为一种图像复原算法受到了学界的广泛关注。EPLL算法以统计先验模型和最大似然估计为基础对图像块进行处理,EPLL算法的优越性在于它可以与任何统计先验模型相结合,并且在实践中可以提供十
转置泊松超代数是转置泊松代数的一种推广.本文在此基础上得到了转置泊松超代数张量积仍是转置泊松超代数的结果.通过几类相关的超代数的研究,构造出了新的转置泊松超代数.接着研究了转置泊松超代数的中心扩张及泛中心扩张.进一步,引入了泊松3-李超代数和转置泊松3-李超代数的概念,获得了转置泊松超代数与3-李超代数和转置泊松3-李超代数之间的联系.最后,我们引入了pre-李超代数上N超算子、O超算子及R-B超
蛋白质泛素化修饰在细胞信号转导、细胞周期调控、DNA损伤应答和细胞免疫应答等众多生命过程中发挥关键调控作用。研究人员在多种遗传性的退行性疾病中发现了蛋白质泛素化修饰的改变,说明其与相关疾病的发生密切相关,揭示其调控机制对这些疾病的诊疗以及相关药物开发都具有重要意义。通过生物实验已经识别出了大量泛素化蛋白及其修饰位点,然而,生物实验难以进行快速大规模的位点识别。因此,生物信息学方法被引入到该研究领域
近年来,随着我国经济飞速发展,房地产行业在其中起着至关重要的作用。房地产价值的变动也会体现出国家经济发展的变化,而国家经济的波动或者国家针对房地产的宏观调控也会影响着房地产价值的走势,因此对于房地产的深入研究对国家发展或是国民生活都有着重要意义。然而真实的市场中存在各种各样的因素影响房产价值,因此对房产价值的评估变得十分困难。本文应用长春真实的房地产数据,通过多模态特征提取,对评估房产价值以及探究
随着图像数量日益激增,让机器自动识别图像内容,并用符合人们阅读习惯的语句描述图像内容的图像文本描述技术,成为目前人工智能领域一项重要的研究内容。图像文本描述技术的主要目标是让机器实现“看图说话”,“看图说话”同时也是幼儿教育的主要任务之一。通过图像文本描述技术,幼儿跟随机器一起进行“看图说话”,这将在一定程度上辅助引导幼儿理解图像内容,激发幼儿的学习兴趣。本文的研究目标是利用图像文本描述技术设计并
最小顶点覆盖问题(MVC)是组合优化领域的一类常见问题,在这类问题中,部分顶点覆盖问题(PVC)是其中一个热门研究方向。我们生活中很多问题都可以转化为PVC问题,比如监控设备安装问题、高校教师排课系统、网络优化问题、线路规划问题等。PVC问题属于NP难问题,也就是说随着数据规模的增大,问题的求解时间往往呈指数级增长,这种情况下要求出问题的精确解所需要的时间开销是难以忍受的,因此近似算法成为解决PV
翻译后修饰(PTM)是指在蛋白质生物合成后对蛋白质进行共价修饰,通常是酶修饰。蛋白质翻译后修饰在蛋白质的加工、成熟以及改变蛋白质的物理和化学性质中起着非常重要的作用。蛋白质亚硝基化是一种重要的、可逆的蛋白质翻译后修饰,涉及一系列生物过程。此外,越来越多的人类疾病被发现与亚硝基化异常密切相关。因此,识别和理解亚硝基化对于细胞生物学的研究、疾病治疗十分重要。亚硝基化位点的准确预测不仅有助于揭示亚硝基化
随着在线医疗服务平台的发展,积累了大量的电子健康记录,使得患者可以从丰富的医疗信息资源中获得更好的医疗服务。然而,患者很难从复杂的信息资源中找到最适合医治自己疾病的医生。这些医疗数据中存在许多无法察觉但是又十分重要的联系,所以发现数据中内部关联对于疾病预测及医生推荐问题具有一定的研究价值。有效分析和挖掘电子健康记录对患者及时、准确获得治疗也具有重要意义。传统的医疗诊断方式往往凭借医生的专业知识和实
学位