融合互作网络信息的多模态化合物-蛋白质相互作用预测方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:fz1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化合物-蛋白质相互作用(CPI)预测是药物研发领域的一个重大课题。药物研发过程中,需要从大规模化合物中筛选出能与蛋白质亲和的样本,这一步用化学实验的方法比计算的方法消耗大得多。随着各种科学实验的不断进行产生了大量生物数据,通过计算机建模能够快速有效地利用这些数据对化合物进行筛选。因此提高化合物-蛋白质相互作用预测的准确率,可以缩小化合物的搜索空间,在药物研发过程中起着至关重要的作用。针对现有化合物表征方法感受野受限于节点拓扑结构的问题,本文提出一种新的图神经网络模型。首先使用图卷积层整合化合物图的邻域特征,然后使用多头自注意力层对所有节点的特征向量进行全局信息提取,层与层之间使用了残差连接来消除层数加深所带来的信息损失问题。该模型突破了基于拓扑距离的化合物图特征提取方式,通过全局的注意力机制来使每个原子节点都参与化合物图中所有原子节点的计算,这意味着远处原子之间的隐式连接仍然可以发挥作用,比现有的方法具有更强的刻画能力。针对现有化合物-蛋白质相互作用预测模型未能将语义特征与相互作用网络中的拓扑信息有效融合的问题,本文提出一种新的二分类模型。首先使用第一点中提出的模型进行化合物图特征提取,使用预训练模型elmo进行蛋白质序列特征提取,并显式地从化合物-蛋白质相互作用网络中提取网络节点的度,作为中心性编码加入初始特征中。然后将两个特征矩阵送入交叉注意力模块进行信息融合,并提取网络节点的相关性编码作为交叉注意力模块中的偏置项。再使用前馈层进一步提取相互作用特征。层与层之间使用残差连接和正则化使模型更加稳定。最后输出预测结果。该模型创新性地将网络的拓扑信息和网络节点的语义特征这样不同模态的信息进行了融合,增加了模型的有效信息量,提高了预测结果的准确率。本文在多个数据集上进行了大量实验,并与几种主流的预测方法进行了对比。实验结果表明,本文所提出的模型可以准确预测化合物和蛋白质之间的相互作用,对网络拓扑结构编码能够大大提高模型性能。
其他文献
随着信息化技术的发展,在线课堂教育开始在信息化应用中崭露头角,但是在线教学中,学生课堂状态不佳和大规模翘课的现象已经对在线教学的发展产生阻碍,因此人们开始更加关注如何改善这种学生翘课的现象。但是,在线教学的相关任务的研究中,公开可使用的数据集和在公开数据集上进行的工作较少,数据集的问题阻碍着在线教育相关任务研究的发展。为了解决上述问题,我们构建了一个新的数据集,并提出了一种新的学生完课预测方法,通
学位
数字化浪潮推动互联网行业飞速发展,开发人员数量的增长速度远低于软件需求的增长速度。因此,研究人员和工业界将目光聚焦智能化编程,希望通过低代码的智能化编程极大地提高软件开发速度、效率和质量。现有的代码生成研究有两个重要的方法:模型驱动的代码生成方法和深度神经网络的代码生成方法。然而,前者需要复杂细致的建模才能得到功能上复杂的代码;后者难以生成结构性复杂的代码,这些问题限制着代码生成的发展。针对上述问
学位
随着开源的软件越来越多,在项目开发过程,为了提高开发效率以及程序性能,不可避免的需要引用开源的库和开源的代码块。对于只能获取二进制的项目,通过二进制代码相似性分析来判断项目中是否使用了库中的代码,前人已经提出了一些解决方案,但这些方案要么只能针对单架构的二进制代码进行相似性分析,要么通过特征进行跨平台的函数进行分析,并不能获得不同架构函数真正的语义表示。本文提出了一个基于对比学习的方案来解决该问题
学位
随着环境污染越来越严重,有机化合物成为环境污染的主要危害,尤其是随着工业污水、生活废水、运输泄漏等方式排放到水体中的有机化合物对水生生物造成了极大的负面影响。然而有机化合物急性毒性的研究领域,传统生物实验方法时间长、费用高、方法复杂,计算机辅助构建的二元分类模型虽可对毒性进行划分,但无法准确对毒性进一步划分。多元分类模型不仅可以快速准确地对有机化合物水生生物急性毒性进行,还可以进一步的按照各个国家
学位
图像超分辨率是计算机底层视觉和图像处理领域的一项基础任务。因为低分辨率图像和高分辨率图像构成一个一对多的映射,所以图像超分辨率任务本质上是一个不适定问题。近年来,借助深度卷积神经网络的强大表示能力,基于深度学习的图像超分辨率方法取得了巨大的突破,这些深度学习的方法主要通过不断加深或加宽网络以获得更好的性能,其参数量不可避免地成倍增加。然而,在实际应用中,设备的内存和算力是有限的,难以支持大型网络的
学位
实时流数据是大数据时代的一种重要的数据组织形式,人们希望自适应流计算系统能够以低延迟和高吞吐量及时处理动态变化的实时数据流。流应用程序的有效运行时重配置被认为是保证流处理系统性能的关键之一,现有的许多工作都试图通过在某一种重配置机制的支持下,通过从某一个角度或对某一个层次进行的重配置来构建一个自适应的弹性流计算系统,如调整算子的并行度,调整任务部署以及调整流分区。本文认为,这些问题是紧密耦合的,因
学位
粮食安全问题是关系国计民生的根本性问题,病虫害、自然灾害等对我国粮食产量有着巨大的影响。在应对这些灾害时,网上与之相关的信息虽然繁多,但是存在内容表达差异以及知识零散等问题,数据存储结构以及表示方式等也各不相同,处于一种相对混乱的状态,人们难以高效地利用好这些信息。近十年里,知识图谱技术发展迅速,其能有效地描述各类事物,以及提高搜索查询的速度与质量,因此利用知识图谱相关技术来整合农业领域相关的数据
学位
慢性代谢性疾病主要包括II型糖尿病、高尿酸血症和肥胖,因其高发病率、高死亡率和年轻化趋势,成为人类健康的重要威胁。以α-葡萄糖苷酶、α-淀粉酶、黄嘌呤氧化酶及胰脂肪酶为靶点,寻求安全、毒副作用小的天然活性物质是这几种慢性代谢性疾病防治领域的研究热点。紫草素是一种源自紫草的天然活性物质,具有抗炎、抗菌以及抗肿瘤等药用价值。探究紫草素与几种慢性代谢病相关酶的相互作用机理对扩大紫草素的应用范围以及防治I
学位
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)是一种由新型冠状病毒(Severe Acute Respiratory Syndrome Coronavirus 2,SARS-COV-2)引起的呼吸道传染病。冠状病毒可跨物种传播到包括人类在内的多种哺乳动物,严重威胁人类健康及公共卫生安全。因此,快速准确地预测冠状病毒宿主分类对于未来防控流行病具有重要意义。本
学位
考试是一种检验考生学习能力和选拔人才的方法,通过考试,可以了解考生对所学知识的把握程度,从而选拔合适的人才。考场作为考试的场所,需要有监考人员进行监督,来防止考生在考试时作弊。只有公平公正的考试环境,才能够检验出考生的真实水平。随着科技的发展,监考的手段也不断地现代化。传统的监考方式主要依靠人工监考,考试中心会在每个考场安排监考和巡考人员来维持考场秩序。通常由于考试集中在期末,规模较大,并且监考人
学位