基于深度学习的药物知识图谱构建及智能问答应用研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wpqh918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物是一种被广泛研究的生物医学实体,大量被应用于临床治疗当中。药物不仅可以治愈疾病,有时也会产生一些不良反应,损伤病人的身体,严重者可能诱发其他疾病。因此,研究药物与症状、疾病等表型之间的相互关系至关重要。如今,生物医学文献是最新、最全面的药物知识来源。但如何从海量的生物医学文献中获取临床需要的、有价值的药物知识并加以利用还存在如下挑战:(1)生物医学文献都是以非结构化的文本形式记载,人工处理和提取相关知识费时费力;(2)现有的药物信息抽取研究主要针对的是药物与药物之间的相互作用关系,而针对药物与表型之间关系的研究较少;(3)如何让抽取出的数据为临床辅助诊疗所使用也是急需解决的问题。基于此,本文主要研究内容包含以下三个方面:(1)本文进行基于深度学习的药物表型实体关系联合抽取方法研究。本文首先基于Semmed数据库,筛选出药物表型相关的实体及关系构建药物表型实体关系抽取标准数据集,然后针对数据集中存在的标注问题进行人工审核修复,最终形成了包含21751条关系数据的Semmed药物表型关系抽取语料库。基于此关系抽取数据集和NYT、DDI、CPI数据集,分别利用基于Bio BERT+BILSTM的实体关系联合抽取模型和流水线关系抽取模型进行实体及关系的抽取。其中,本文所提出的联合抽取模型在各数据集实现较高F1分数(Semmed:73.80%,NYT:75.35%,DDI:69.62%,CPI:37.23%)的情况下,实现了实体类别信息的抽取,解决了部分现有联合抽取方法无法抽取实体类别信息的缺点。相比之下,流水线模型的关系抽取F1分数均低于联合抽取模型,这说明了分解策略的有效性。同时,流水线模型的实验结果中查全率普遍高于查准率的情况,也验证了流水线方法中存在的冗余实体问题。(2)本文进行药物表型知识图谱构建研究。本文以抽取出的Semmed药物表型关系数据为基础,融合OpenFDA不良反应数据和DrugBank药物数据构建药物表型知识图谱。针对于不同数据源中存在的“多词一义”问题,采用字典法进行实体对齐,知识图谱对齐前含有229608个实体和3756234条关系,对齐后含有185584个实体,3421286条关系。(3)本文进行基于药物表型知识图谱的问答应用研究。本文以药物表型知识图谱为基础搭建了基于模板的智能问答系统。该问答系统使用规则的方法将用户问句转换为Cypher图查询语句,共计支持21种问答类型。基于模板的方法具有可解释性强、易于实现和不需要标注训练数据的优点,适用于领域知识库问答系统的构建。
其他文献
作为人们生活的一部分,零售行业的发展越来越迅速,竞争越来越激烈。为了吸引消费者,不管是线上还是线下都竞相采用各种促销手段、营销方式宣传自己的产品,增加自己的市场占有率。捆绑销售作为常用的促销手段,不仅具有让利少,稳定产品价格的优点,还能宣传新产品,受到零售商和消费者的青睐。通常情况下,捆绑在一起销售的两个产品在功能上是互补的或者相似的,捆绑定价比两个产品单独购买的总价更低,这样不仅可以刺激消费者购
本文以改善一种润滑耐磨涂层的摩擦学性能为目的,通过对涂料配方以及制备工艺的改良,制备出一种低摩擦系数、耐磨的新型固体润滑涂层,研究了该新型复合固体润滑涂层的摩擦学性能,分析了涂层减摩抗磨机理。首先,在已有配方的基础上添加新的润滑相(羟基硅酸镁,MSH)和填料(纳米Ni)优化固体润滑涂料,结果发现:纳米Ni的添加使得涂层摩擦系数下降,适量的MSH能够增加涂层的耐磨性,且Ni和MSH在减摩抗磨方面表现
随着互联网的高速发展,在线教育行业也迎来的新的契机。越来越多学生通过网络课堂的方式,得到了更优质的教育资源。本文从实际需求出发,设计实现一种小组模式的在线教育直播系统,旨在学生在线上课过程中,取得更加良好的体验,拉近老师学生的距离。本文从实际使用者出发,对教师、学生两种用户进行特征分析,确立了系统的功能性需求。之后对系统的技术架构进行分析,确定了系统的四层体系架构,将系统分为基础设施层、服务层、负
在科技项目实施中要承担相应的科技伦理责任。科技项目立项前科学技术研究人员要树立正确的科学技术观和负责任的研究与创新理念,并让利益相关者广泛参与项目立项决策,承担好项目的预评估责任。科技项目研究过程中,科学技术研究人员要主动管控可能出现的负面影响,始终有贯穿每个研究细节的责任自觉,主动减少和停止负面影响。科技成果推广和运用过程中科学技术研究人员要承担科普责任,推动使用者正确运用成果,促进公众科学素养
随着分布式发电技术的成熟和微电网的形成,配电网也有原来单一的受电方转变为主动配电网。并网微电网在配电网中的增多,影响到原交流配电网的运行,如有功和无功功率分布的变化、以及谐波的分析,严重的话还会影响到稳定。不同微电网的组成,不同的接入设备,由于其性能的差异,对配电网运行的影响不尽相同。电力电子变压器作为一种集多种功能于一身、且具有灵活接口新型设备,在连接微电网和主网时对电网的运行产生怎样的影响,更
随着城市规模的扩大和轨道交通的快速发展,环境振动敏感区逐渐增加,振动要求日渐严苛。如果在轨道交通的规划阶段快速的甄别减振敏感区范围及要求,可使线路尽量避免穿越振动敏感区,对于某些振动极其敏感地段则尽量避让,不仅可以为轨道交通选线提供依据,还为未来的减振措施设计提供了一定的依据。但是这也同样面临着预测范围广、效率高、预测结果较为准确等要求。目前常用的方法为经验公式法,存在预测精度不高,对于一些在特定
随着网络技术的飞速发展,在真实的业务场景中不同企业或不同组织之间数据交换的需求场景越来越多,因此对于共享数据的访问控制也越来越受到人们的重视。在传统的云存储系统中,通常采用集中式访问控制架构,容易受到黑客的攻击,存在着单点故障、隐私泄露的问题。同时,存储在云服务器中的共享数据也存在潜在的被伪造,被篡改的风险。在真实的业务场景中,跨组织间进行数据存取的流程繁琐且耗时,急需实现业务流程自动化。另一方面
信息在数字通信的传输过程中,会受到噪声和干扰的影响,从而产生误码。通过信道编码技术,可降低上述影响,降低误码率。极化码是一种新型信道编码方法,已经被理论证实可以达到香农限极限。它具有编译码计算复杂度低、生成矩阵固定、误码率低等优点,已经被3GPP批准为5G控制信道纠错编码的核心编码技术。然而,极化码在短码下译码性能不高,而目前面向极化码所开发的串行消除(successive cancellatio
企业的库存管理水平直接影响其自身的成本、利润和顾客满意度。消费者需求的不确定性使得企业在制定商品库存决策时面临重大挑战。与此同时,随着电子商务的发展和企业信息化进程的加快,电商企业收集到的数据日益丰富,其中商品售价、促销力度、商品类别等多种类型的辅助信息,都可能影响商品的需求。挖掘并充分运用这些附属信息的价值以辅助电商企业进行库存决策,从而改善企业自身库存状况,具有重要意义。基于上述背景,本文研究
随着物质生活水平的不断提高以及电子商务的蓬勃发展,消费者对冷链物流的需求急剧上升,冷链物流产业规模持续扩大。与此同时,冷链物流高耗能、高排放的特点也导致其温室气体排放总量不断提升,对气候环境治理带来了不利影响。为有效应对这一问题,我国政府从两个方面进行了调控,一是建立了碳排放权交易机制,通过经济手段引导企业进行节能减排投资与改造;二是大力提倡新能源车辆应用,以缓解在运输、配送等过程中的温室气体排放