面向生物医学文献的化学物蛋白质关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:blademan_0617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献已发展成为一座亟待探索挖掘的知识宝库,是生物医学领域研究中非常重要的数据资源。面向生物医学文献的化学物蛋白质关系抽取,即从无结构化的生物医学文献中自动抽取出化学物与蛋白质实体以及它们之间的相互作用,对于药理学和临床研究具有重要意义,在药物发现、了解药物不良反应的分子机制、描述药物代谢或绘制对系统药理学具有重要意义的调控网络方面发挥着重要作用。所以,面向生物医学文献的化学物蛋白质关系抽取具有重大科研意义与社会价值。本文从命名实体识别、关系抽取、实体与关系联合抽取三个关键性任务开展研究工作。对于命名实体识别任务,针对现有方法使用BIO标记策略难以有效地识别出目标实体的问题,提出了一种使用BERT在机器阅读理解框架下实现化学物与蛋白质实体识别的方法。实验结果表明,所提模型相比于现有模型,在化学物与蛋白质实体识别的性能上有一定优势。与在序列标注框架下使用BERT实现化学物与蛋白质实体识别的模型相比,在机器阅读理解框架下使用BERT实现化学物与蛋白质实体识别,模型的性能更为优异。对于关系抽取任务,针对现有方法难以有效地区分同一序列中不同位置token重要性的问题,引入高斯概率分布来提升目标词及其相邻近单词的权重,同时利用外部知识来指导模型进行关系抽取。实验结果表明,所提方法可靠有效,能够提升化学物蛋白质相互作用抽取的性能。引入高斯概率分布增强目标词及其相临近单词的权重有利于提升所提方法对化学物蛋白质相互作用抽取的性能,利用外部知识来指导化学物蛋白质相互作用抽取同样有利于提升所提方法的性能,并且二者之间存在某种程度上的互补关系,同时利用这两方面信息能够进一步提升所提方法对化学物蛋白质相互作用抽取的性能。对于实体与关系联合抽取任务,针对现有联合抽取方法难以有效地抽取出重叠三元组的问题,提出了一种新颖的实体与关系联合抽取方法。所提方法在机器阅读理解框架下抽取与某一特定化学物蛋白质相互作用类型相关的化学物和蛋白质实体,然后利用基于所提标记方案设计的实体组合算法将抽取到的实体和关系组合成实体关系三元组。实验结果表明,相比于现有的联合抽取方法,所提方法能够提升化学物蛋白质实体关系三元组抽取的性能,尤其擅长对CHEMPROT数据集中大量存在的重叠三元组进行抽取。
其他文献
我国能源消费目前主要来源于煤炭资源,而储量丰富的准东煤田则成为了重要的能源储备区。准东煤田位于新疆,预计储量达3900亿吨,是国内最大的整装煤田。准东煤属于海洋性沉积型煤田,具有较多的可煤层数以及较深的煤层厚度。准东煤田的煤质较好,发热量高、水份和挥发分含量较高、灰份产率极低、硫及微量元素含量低,是良好的动力用煤。受困于新疆地理位置限制,就地开发燃用成为了准东煤性价比最高的利用方式。由于早期对准东
学位
随着世界能源危机和环境污染越来越严重,智能电网和能源物联网由于可以实现节能减排的效果得到了快速发展。需求侧管理作为智能电网的一种重要机制,其目的是通过有效措施将供电量和需求量进行合理优化配置,引导需求侧调整用电方式,科学合理用电,减少电力资源浪费,实现能源的最大利用,避免安装新的发电和配电设施。需求响应是需求侧管理的重要解决方法之一,包括价格响应和激励性需求响应等。基于需求响应的实时电价是智能电网
学位
在能源需求日益紧张的今天,采用科学的方法对能源进行管理,提高能源利用率,不仅可以减少化石能源的消耗和污染物的排放,同时对企业提升经济效益也具有重大意义。换热网络作为能量回收的一个重要系统,其可在满足流股工艺要求的同时,通过对流股上换热单元的优化配置,达到年综合费用最小或能源回收量最大。然而,随着系统规模的不断扩大,其中的换热子系统的非凸、非线性特性愈发突出,其全局最优化变得异常困难;此外,优化模型
学位
颗粒物质是由大量离散的固体颗粒组成的体系。当颗粒物质间的摩擦结合力被克服时,颗粒系统将发生破裂并开始流动,形成了颗粒流。该过程在自然界以及工农业生产领域中广泛存在,例如山体滑坡、雪崩、泥石流、江河底部粗颗粒的推移质运动、制药中不同物料的混合和干燥、工程中颗粒物料的管道输送以及颗粒介质受冲击后的流变过程等。颗粒流是多体相互作用体系,构成多尺度结构,具有多物理过程和复杂力学性质。其动力学特征涉及3个尺
学位
随风电快速发展及风力机大规模安装、运行和并网发电,保证风力机结构安全已然成为重中之重。在诸多导致叶片发生结构失效损毁事故的因素中,风力机运行时或达到切出风速停机后的变桨故障均易引发极高气动载荷,造成叶片结构安全无法保障。但,目前鲜见与此相关气动及结构方面的研究。为此,针对风力机发生变桨故障时所处运行状态及叶片结构性能需求,论文根据不同变桨故障情况气动和结构特点,提出两种分别基于静态链接库与数据库的
学位
Antroquinonol是从樟芝固态发酵产物中分离得到的一种具有广谱抗癌活性的化合物,但是固态发酵固有的缺陷以及较低的产量限制了其在临床的应用。虽然多种前体物被证明在液态发酵中具有诱导Antroquinonol产生的作用,但是Antroquinonol的产量依旧处于一个较低的水平。本论文通过萃取剂的筛选、萃取发酵体系的优化,建立了用于高效合成Antroquinonol的In-situ萃取发酵系统
学位
近年来,机器学习与大数据技术取得了长足进步,实现了以机器学习方法为主并融合其他相关数据分析技术在各个领域的广泛应用。尤其在民航运输领域迅猛发展的背景下,由于智慧机场建设和航空旅客绿色出行的内在驱动,使得行业生产相关数据不断增长与积累,运用机器学习方法赋能机场运营管理与相关服务质量水平提升。然而,由于航空旅客出行相关问题的复杂性,关联的业务错综交织,采用传统的一些方法往往不能得到理想的结果。本文主要
学位
全球气候变暖是人类面临的问题之一,结合我国以化石能源为主的一次能源消费现状,对化石能源利用所产生的CO2进行捕集、封存非常重要。燃烧前捕集、燃烧后捕集与富氧燃烧等CO2捕集方式均会产生额外的分离能耗,造成系统经济性下降。而化学链燃烧在实现CO2分离的同时,不会造成额外的分离耗能,还可实现能量的梯级利用,因此具有良好的发展前景。由于煤炭在我国一次能源消费中占比超过50%,因此,固体燃料化学链燃烧的研
学位
复杂系统的输出(时间序列)包含了大量的信息。时间序列分析给出统计性质如均值、方差、短/长程相关和自相关系数等;复杂网络分析给出结构性质如模式、模式依赖的网络及其演化,这些性质展示了时间序列的多维度图像。建立能够同时复现时间序列多个性质的一般模型是至今正在探索的目标,实现这一目标的第一步就是要建立描述时间序列多维度图像的统一框架。本文提出了多尺度转移矩阵理论,为时间序列的统计性质和结构性质架起了连接
学位
在移动互联网时代,谣言突破了地理的限制,其传播范围之广泛,速度之惊人,影响之巨大,常常引发成严重的后果,这为新时期谣言治理提出了新的要求与挑战。本文结合活跃度、心理效应、自我成长机制等内部因素以及媒体覆盖、时间滞后性等外部因素,建立了合适的谣言模型以探究谣言的传播规律,并提出了有效的防控措施,主要研究内容包括:(1)介绍了个体活跃度及其波动性对于谣言传播的影响,发现了活跃度与传播阈值的关系以及对谣
学位