基于深度模型的生物医药实体互作用挖掘关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hzn_avr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物医学大数据的迅速积累,生物医学领域的研究方式产生重大的转变,从假设为主导变成了以数据为主导。生物医学大数据中隐藏着丰富的生物医学知识,蕴含了大量生物医学实体之间的内在关联规律,是进行复杂病理分析、流行疾病预测、新药研发和临床用药决策的重要支撑。特别是出现如鼠疫、埃博拉病毒和新型冠状病毒肺炎等突发公共卫生事件时,使用生物医学知识能够快速响应病原学分析和候选治疗药物筛选的需求,极大地加快新药的开发进程以及降低研发费用,有效地控制公共卫生事件的扩大与恶化。然而,丰富的医疗信息和知识隐藏在大量非结构化的数据中。如何快速从生物医学大数据中提取出结构化的知识是生物医学领域的一个重要研究法方向。实体关系作为表示知识的一种有效基本方式,对其进行识别是信息抽取领域的核心任务。利用生物医学实体之间的相互作用信息,能够揭示生物分子之间的复杂作用机制,对推动生命科学领域的发展具有重要意义。对此,本文以生物医药实体相互作用提取为主线,旨在充分利用深度学习技术,从生物医学文献和生物分子网络中自动提取生物医药相关实体之间的关系,为药物的研制和使用提供决策建议。本文的主要研究内容包括以下几个方面:第一,针对多药物服用过程中产生的药物不良反应问题,本文提出一种基于双向长短期记忆网络的药物相互作用提取模型。该模型能够根据文本句子的描述,自动判断一个实例中的两个候选药物之间是否产生相互作用,或者识别它们之间的相互作用类型。针对生物医学文本的句式结构较复杂的特点,该模型将词语之间的依存关系融合到长短期记忆网络中,并通过Linear通道、DFS通道和BFS通道共3个独立的通道,充分地学习文本句子的语义信息。每个通道利用特征层、编码层和池化层对基于距离和基于依存关系两种特征进行处理,生成整个文本序列的不同编码表示。最后将3个通道的输出进行联接并作为分类层的输入,以此学习药物相互作用的关系分类器。实验结果表明,该模型在总体性能上的表现优于基线模型,能够较好地平衡精准率和召回率。第二,考虑深度学习模型结果的可解释性问题,本文提出一种基于注意力机制的药物相互作用识别模型。该模型通过引入多头注意力机制,学习特征的权重分布,以此衡量不同特征在网络中的贡献程度。该模型主要包括Bi-LSTM层、Attention层和Dense层。Bi-LSTM层中利用两个相反方向的长短期记忆网络学习词语的语境信息。Attention层采用多头注意力机制学习不同语义空间中所有特征的权重分布,提高神经网络增强关键特征或者抑制无用特征的能力。Dense层则设计了一个全局标记符根据权重分布融合整个序列中所有词语的语义信息。实验结果表明,该模型在药物相互作用提取任务上取得了较好的效果。另外,该模型计算得到的权重分布能够有效识别学习过程中的关键特征,对解释模型结果的可靠性具有重要意义。第三,针对药物靶标的识别和药物重定向问题,本文通过集成多个关系知识库构建了一个包含化合物、基因和生物通路共3种节点类型的大规模异构生物分子网络,并提出一种基于图卷积网络的化合物与基因相互作用预测模型。该模型采用端到端的框架,分别利用图卷积网络作为编码器和张量分解模型作为解码器,将关系提取问题建模为生物分子网络中化合物与基因节点之间的链路预测任务。编码器采用两种不同视图聚合邻居节点的信息,分别是全图视图和子图视图。前者将图作为一个整体输入编码器进行处理,后者则将全图切分为子图,先利用二元关联子图学习节点的初级嵌入,再使用初级嵌入初始化多元关系子图中的节点表示,并学习高层次的节点嵌入。另外,在子图视图中,从生物医学的视角出发,基于推理假设发现潜在的节点链路对生物分子网络的拓扑结构进行重构。实验结果表明,该模型能够较好地预测化合物与基因之间的潜在链路。同时,采用子图视图的方式不仅能够有效提升模型的性能效果,而且可以减少模型的训练时间。
其他文献
中层大气是日地耦合系统中重要的区域,大气重力波在上传的过程中输送热量、质量和动量是中层大气最主要的动力过程,影响着中层大气的环流结构和大气成分。由于重力波的频谱波段很宽,不同卫星探测器有其特定的优越性和局限性,有必要使用多种卫星资料的综合探测手段来研究重力波特征。尤其对于常用的高光谱资料来反演重力波信号必须考虑通道选择问题,以有效提取不同高度处的重力波信号。其次,青藏高原作为大气重力波的重要源地,
学位
航天器姿态与轨道运动的动力学建模与控制方法决定了空间任务的成败,姿轨控制在空间近距离交会对接、目标监视、在轨服务等空间任务中扮演着重要角色,传统将姿态轨道运动分别单独建模、独立控制的模式无法充分考虑平动与转动运动的耦合影响,无法满足某些任务对位姿控制的高效性与高精度的需求。因此,航天器姿轨一体化建模与高效率高精度控制方法,对于航天器近距离操作任务具有重要的理论意义与工程应用价值。本文对航天器姿轨一
学位
随着信息技术的飞速发展,软件作为基础设施,在各个领域的应用中起着至关重要的作用,协调控制了各项工作的正常运行。然而,不断增长的软件规模以及复杂度同时也带来了软件缺陷数量和复杂度的不断增长。为应对日益严重的软件缺陷问题,学术界和工业界投入大量精力来研究自动化软件缺陷定位技术。由于程序逻辑结构的复杂性和多样性,从程序内部根据其控制和依赖关系去查找缺陷变得十分困难,不确定性也较为突出,因此,许多研究人员
学位
通过分析文本从而实现抽取特定的事件或事实信息的过程,被称为信息抽取。通过对结构不统一的非结构化文本进行信息抽取,能够得到简单明确的结构化数据,便于人们对数据进行高效检索及管理。实体关系抽取作为信息抽取技术的主要任务,在近年来受到学术界和产业界的极大关注。实体关系抽取的目的在于给定一段非结构文本后,从句子中寻找、识别和分类相关实体以及实体之间的关系。在许多下游自然语言处理任务中,例如信息检索、搜索引
学位
相对论回旋管具有功率容量高、束-壁距离远、束-波换能谐振腔几何参数敏感性低的优点,可以在高频段特别是毫米波波段实现高功率、长脉冲输出。传统的热阴极驱动的回旋管输出功率最高也没有超过100兆瓦,采用爆炸发射阴极驱动可以获得更高的输出功率。国外在80-90年代开展了爆炸发射阴极驱动的相对论回旋管研究,但受到当时爆炸发射阴极技术水平等限制,这类器件的束流碰壁损失接近90%,电子束的速度离散大,功率效率比
学位
计算关联成像作为一种新型成像技术,通过光场调制器件进行结构化照明,并使用无空间分辨率的桶探测器测量总光强,实现了以计算重构的间接成像方式代替面阵探测器的直接成像。相对于传统光学成像,计算关联成像在抗干扰性能、光源选择范围、可物像分离等方面具有独有的优势,因此在X光显微成像、太赫兹成像、三维激光雷达、光学加密等领域受到广泛关注。然而,受限于自身欠采样过程、重构算法复杂度等因素,计算关联成像依然面临着
学位
医学图像是医学诊断的重要媒介和依据。随着过去数十年信息技术的发展,人类已经积累了海量的医学图像数据,而计算机辅助诊断在医学图像分类和诊断中的作用也日益凸显。传统的医学图像分类算法一般假设不同类别的样本数量均衡,由此训练一个二分类或多分类的分类模型。但在实际临床应用中,由于疾病发病率较低、不同科室所针对的疾病不同等原因,使得收集到的病人数据往往是不平衡的。在不平衡数据上训练的二分类或多分类模型会有分
学位
在当前火箭基组合循环发动机、高超声速地面试验设施以及化学激光器等空天领域技术发展背景下,引射器庞大的体积规模已成为亟需突破的技术瓶颈问题。本文提出了一种可以有效减小引射器体积规模并提高引射性能的射流分割法,发明了一种二维构型多支板引射器,通过理论、试验和数值仿真相结合的方法,对多支板引射器的性能特性、流场结构、混合增压机制进行了系统而深入的研究。通过对比分析主/被动气流在引射器流道内的混合加速、减
学位
随着信息技术以及光谱成像技术的不断发展,光谱图像感知技术在军用、民用等多领域具有重大的理论以及实践价值。各种传感器的发展和普及给人类生产生活带来了极大的便利。但是由于传感器种类越来越丰富,不同设备的成像机理存在很大差异,相同设备的不同参数设置也会造成成像品质的巨大差异。为了弥补单一图像难以全面描述被摄场景信息的不足,对光谱图像融合的研究应运而生。图像融合作为光谱图像感知领域的一个重要研究对象近年来
学位
水下无人自主潜航器(AUV)作为海洋资源开发的重要工具,常搭载侧扫声纳完成海底沉积物探测、海底地质勘探、海底地貌测绘、水下目标搜寻等任务。执行这类任务主要存在两个技术难点,一是潜航器自主导航技术,二是侧扫声纳水下建图技术。初始对准作为确定载体初始时刻的姿态、速度的重要技术,是实现自主导航的难点之一。潜航器根据任务需求,可先在船体晃动情况下初始对准再进行布放,或者先布放再在DVL速度辅助下动态初始对
学位