深度学习在蛋白质性能预测方面的应用研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:mzhao79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一种有机大分子,承载了细胞主要的生命活动。在蛋白质序列中,氨基酸不同地排列组合,导致了蛋白质性能的差异性。分析蛋白质序列数据,研究蛋白质性能,具有重要的理论和实际意义。目前,通过计算机的高效计算能力,进行蛋白质性能预测已经成为重要的研究方向。本课题针对不同的科研问题,通过分析蛋白质数据的特点,构建与其匹配的深度学习算法,进行蛋白质性能预测,研究内容主要分为三个部分:(1)基于双路卷积神经网络的蛋白质溶解性预测模型。在工业生产和生物学理论研究中,蛋白质溶解性的确定是一个重要的先决条件。在这项研究中,通过分析蛋白质溶解性数据,设计基于全局特征和局部特征的特征融合方法和深度双路卷积神经网络模型。首先,为每个样本提取全局特征和局部特征,构建混合矩阵组,作为一路卷积通道的输入,并利用SCRATCH工具提取57维特征和21种序列特征作为额外特征,作为另一路卷积通道的输入。然后,依据数据特点,为实现蛋白质溶解性预测,对卷积层的串并联结构调整组合,设计深度双路神经网络模型。该模型包含了一路3层2D卷积操作的通道和一路1层1D卷积操作的通道,分别用于混合矩阵组和额外特征的隐含关系计算。最后,设计多种对比实验,利用独立测试集,验证本研究算法的优越性。(2)基于词频二肽频率编码和混合图卷积神经网络的药物蛋白质亲和力预测模型。在疾病治疗和抑制病毒的药物开发过程中,通常蛋白质被作为识别靶点,而蛋白质与药物亲和力是一项重要的参考指数。但当前利用深度学习构建的蛋白质与药物亲和力预测模型存在性能不高的问题。本研究利用词频二肽频率编码和混合图卷积神经网络设计了一种药物蛋白质亲和力预测模型。首先,利用自然语言的词频特性,改进多肽频率特征,对蛋白质序列进行特征表达。之后,利用五种不同特征表达药物原子,以及原子键关系映射为边集合,实现图结构表达药物分子。然后,将蛋白质特征和图结构分别作为卷积神经网络和图卷积神经网络的输入,共同建立预测模型,实现对药物亲和力的预测。并设计多种对比实验,验证本设计的有效性。(3)蛋白质性能预测系统的设计与实现。以蛋白质溶解性预测模型和药物蛋白质亲和力预测模型为基础,利用封装技术和多线程技术,使用Python语言为开发环境,运用Qyqt5、Numpy、Sklearn、Tensor Flow、Pytorch、Pytorch-Geometric等科学计算库,开发蛋白质性能预测系统。该预测系统通过模块化程序设计思想,采用分层、分布式功能设计,将系统分为3个层级、11个功能模块,实现了19个不同的功能,并设计容错机制,针对用户可能出现的错误操作,设置对应的提醒功能。该预测系统为用户提供了良好、稳定的运行环境,实现了蛋白质性能、药物蛋白质亲和力的训练与预测。该预测系统在训练功能模块中,动态显示训练过程,并展示预测模型的各项评价指标,训练过程与结果具有较高的可视化程度。通过对各功能模块进行试用测试,证明该预测系统具有较好的稳定性和可靠性。
其他文献
酶是生物体所生产的具有催化能力的蛋白质,参与了几乎所有生命活动和生理过程。极端温度生物所生产的酶,即极端温度酶,是极端生物能够适应其生境温度的关键,研究极端温度酶的温度适应机理不仅是研究极端生物适应机制的最直接和最有效途径,同时对酶的改造和工业化应用,也具有重要意义。为了查明与酶温度适应性显著相关的结构因素,本文在构建尽可能完整的、同时包含嗜冷酶、常温酶和嗜热酶成员的高质量非冗余酶家族结构数据集的
矩形板及其加筋板结构广泛地应用于多种领域,如航空航天、海洋船舶等,在外激励的作用下结构会发生非线性振动,进而会给工程中的设备、装置等带来十分不利的影响,甚至造成严重的破坏,所以对于板结构非线性振动的研究具有十分重要的理论意义和应用价值。然而,目前非线性振动分析建模方法主要集中在经典边界条件,采用数值法进行求解,不利于统一研究边界条件等因素对结构非线性振动的影响。因此,本文提出了一种结合能量法和改进
共轭高分子聚合物具有广泛的应用,具有明确分子量的寡聚物是研究共轭高分子聚合物性能的优良模型。基于苯乙炔或芳基乙炔骨架的共轭刚性大环正是这样一类寡聚物,其独特的环状结构在提高它的共轭性同时也增强了其稳定程度,这类具有刚性环状结构的化合物,其环内部尺寸在一至几纳米范围内。因为它们的刚性允许连接具有特定功能的侧基,并由此获得功能多样化的材料,所以一直以来,刚性大环都是人们的研究热点。进一步探索刚性大环结
不对称Friedel-Crafts芳基化反应在有机合成中是一种高效且常用的方法,常常用于构建新的碳-碳键来合成具有高光学纯度的芳香化合物。近二十年,有机催化富电子杂芳烃和亲电试剂的反应相较于金属催化已经取得了长足的进展。随着不对称Friedel-Crafts反应中亲电子试剂类型的发展,例如α,β-不饱和羰基化合物、硝基烯烃、羰基化合物、亚胺乃至相应的阳离子前体都有相应的研究和报道。然而,相对稳定的
C-H键是有机物中一种最普遍的化学键,许多有机合成常需要通过对特定C-H键的活化形成新的化学键来实现官能团化目标产物的构筑。C-H键活化策略简捷高效,缩短了合成所需步骤,且反应具有优良的原子经济性,符合绿色化学的要求。通过直接C-H键官能化构筑新的化学键,在天然产物及药物分子的合成和修饰中,具有举足轻重的应用价值。卡宾作为一种非常有价值的合成中间体在C-H键中的插入反应中引起了人们极大的兴趣。尽管
产后出血主要是指顺产时胎儿娩出后24h出血量超过500mL,为产科常见症状。Bakri球囊宫腔填塞相对不需要有创性手术,复杂的操作以及精密的设备,已经成为被大家认可的保守性治疗技术,成功率能够达到90%,但仍有部分患者存在止血失败,宫腔球囊填塞失败则与重症产后出血、输血、子宫切除,以及产妇死亡密切相关[1-6]。对此,我们将经阴道分娩后产后出血行宫腔球囊填塞病例进行了回顾性分析,对成功及失败
当今社会是由各种网络联系起来的复杂系统,各种网络都能很方便地模型为一个无向图、有向图、赋权图、或者随机图等.从而,与网络相关的很多研究课题都可以转化为一些图论问题,例如网络的可靠性问题可以转化为图的可靠性参数问题,如图的连通性,斯坦纳树填装数和树连通度等问题.连通度是图论的基本概念之一,它可以用来衡量一个通讯网络的性能.一个通讯网络用图来描述是很方便的,如果一个图的连通度越高,则在图的顶点或边发生
液晶是一种兼具液体流动性和晶体有序性的物质,离子液体是一种兼有阻燃性和热稳定性的绿色溶剂。离子液晶则结合了离子液体和液晶的双重特性表现出更优良的离子导电性、热稳定性、自组装性能和阻燃性,在智能显示窗、太阳能电池、锂离子二次电池等储能电子元器件领域表现出巨大的应用潜质,在全球范围内引起了众多研究者的兴趣。在众多离子液体中,咪唑类离子液体是研究较为广泛的一类,因此常被引入至离子液晶的分子设计与构筑中。
粒子物理标准模型(SM)的成功是它预言了许多粒子性质,并且在后来的实验中获得了证实。欧洲核子中心的大型强子对撞机(LHC)在2012年发现了希格斯粒子(Higgs),该粒子也是粒子物理标准模型预言中最后发现的一个粒子。希格斯粒子通过与标准模型中的其他粒子耦合可以赋予其他粒子质量,所以其被认为是粒子的“质量之源”,也被称为“上帝粒子”。同时该粒子也带来了标准模型的自然性问题,理论物理学家一直期望能寻
近年来,基于高导电海水表面对短波段垂直极化电磁波的低衰减特性,高频地波雷达(High Frequency Surface Wave Radar,HFSWR)被广泛应用于海洋表面动力学要素(风、浪、流场)和运动目标的超视距探测。高频频段(3-30 MHz)的频率占用率非常高,自由空间中存在着大量来自于其他外部无线电发射设备的有源电磁波信号,进入雷达接收机后会导致严重的射频干扰(Radio Frequ