基于深度学习的蛋白质二级结构预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w346399938
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息技术不断发展并走向成熟,生物信息学为生命科学领域带来了革命性的进步,极大地推动了生命科学的发展。蛋白质的二级结构是研究蛋白质功能与结构之间如何联系的基础,对药物和酶的设计至关重要。但是通过实验的方式获取蛋白质二级结构需要大量的成本,很难推广使用。近几十年来,科学家们致力于使用机器学习的方法预测蛋白质的二级结构,但预测准确率仍没有达到理想的高度。如何提升蛋白质的二级结构预测准确率成为目前生物信息学领域的一个研究热点。考虑到蛋白质二级结构的形成受到多种因素的影响,本文对应地从氨基酸的表示学习方法、蛋白质二级结构预测模型、融合蛋白质空间结构信息的预测模型三个方面对蛋白质二级结构预测方法进行研究。主要工作包括:氨基酸的表示是蛋白质二级结构预测任务的基础,目前主流的氨基酸表示方式为one-hot向量。但由于one-hot向量过于稀疏,难以存储氨基酸的特性信息。为了捕捉氨基酸自身的物理化学特性和进化信息,本文提出了一种氨基酸嵌入向量和位置特异性矩阵(Position-Specific Scoring Matrix,PSSM)相结合的氨基酸表示学习方法,将蛋白质序列转化为矩阵,更好地表示氨基酸信息。在蛋白质二级结构预测算法方面,为同时提取特定氨基酸的局部上下文与远距离依赖信息,本文将门机制引入到卷积神经网络框架中,提出了一种新的蛋白质二级结构预测模型CNNH_PSS。在CB6133和CB513蛋白质结构预测公开数据集上准确率超越目前已知最好模型,且训练收敛速度加快近50倍。考虑到蛋白质二级结构的形成受到蛋白质结构性质的影响,本文进一步引进了蛋白质溶剂可及性(Relative Solvent Accessibility,RSA)预测任务,并使用多任务学习方法提取蛋白质溶剂可及性相关特征以辅助蛋白质二级结构预测。针对现有多任务学习框架对相关任务信息利用不充分的问题,提出了一种端到端的迭代多任务学习框架,在CB6133和CB513蛋白质预测公开数据集上的准确率超越了CNNH_PSS模型,达到了目前已知的最优性能。
其他文献
针对目标跟踪目标数量大,观测数据与目标状态相关性较为复杂的问题,本文提出了一种驱动历史信息和反馈融合的多目标跟踪算法,即驱动反馈融合多目标跟踪方法(HIFMTT),并对杂波环境下
<正> 据史书记载,唐玄宗有一次和宰相张说下棋,正好李泌入内,玄宗要张说试一试李泌的才学,张说就借下棋一事出题,要李泌作诗《咏方圓动静》,并且自己先作一首: 方如棋局,圓如
要使合唱艺术独特的艺术魅力充分挖掘、发挥出来,艺术地再现给听众,就要对合唱作品从时代背景、思想内容、速度、力度、表情述语、体裁风格、动静、明暗、层次、声部和谐等方
我厂化验室原作物相分析时,因无震荡器,用人工震荡,劳动强度大,工作效率低,药剂挥发的有毒气体对操作人员的身体健康危害大。现在采用了自行设计和制造的震荡器(如附图),克
作为承受液压起道器所有载荷的底板,是整个液压起道器能否安全使用的关键。为替代对底板进行加载试验,提出了利用有限元软件ANSYS对新设计的30t液压起道器底板进行静力分析,
通过分析我国银行国际化战略面临的主要难题,西方商业银行的国际化发展趋势,以及我国与西方商业银行国际化水平的差距,提出我国银行国际化战略中四个战略的布局和走向:组织战
文章综述了近几年国内外禽类催乳素对禽类卵泡发育、卵泡类固醇激素的分泌和禽类就巢的调节机理的研究进展。催乳素在其发挥生理作用的过程中,对禽类卵泡发育有一定的抑制作
目的对外伤所引起的年轻恒牙脱位后再植的临床疗效以及影响因素进行分析探讨。方法随机抽取在2009年2月-2011年2月间我院收治的由于外伤所引起的恒牙脱位临床患者76例,将其分
目的探讨腹腔镜胆囊逆行切除术的临床价值。方法回顾性分析行腹腔镜胆囊逆行切除的118例患者的临床资料。结果 118例中,4例因炎症粘连较重暴露欠佳,在腹壁原3个操作孔的基础
为优化设计桥带式电火工品,研究了其换能发火模型,基于傅里叶传热定律,建立了 Ni-Cr金属桥带电火工品发火的数理模型,并给出了临界发火电流的理论计算方法。在5 min和50 ms恒流激