【摘 要】
:
知识图谱,是结构化的语义知识库,是让机器实现认知智能的基石。它通过图结构的形式来描述知识中的概念及其相互关系,其基本组成单位是“实体——关系——实体”三元组,它们通常隐藏在海量非结构化的文本当中。面对海量的数据,实体关系抽取技术能够实现自动地从非结构化的文本中抽取出符合实际需求的结构化数据,能够大量地减少人力的投入。因此,如何准确、全面地从文本中提取出知识三元组,是一个极具研究价值的问题。命名实体
论文部分内容阅读
知识图谱,是结构化的语义知识库,是让机器实现认知智能的基石。它通过图结构的形式来描述知识中的概念及其相互关系,其基本组成单位是“实体——关系——实体”三元组,它们通常隐藏在海量非结构化的文本当中。面对海量的数据,实体关系抽取技术能够实现自动地从非结构化的文本中抽取出符合实际需求的结构化数据,能够大量地减少人力的投入。因此,如何准确、全面地从文本中提取出知识三元组,是一个极具研究价值的问题。命名实体识别和关系抽取是两个不同的信息抽取任务,前者能够从非结构化的文本中提取出实体边界、实体类别的信息,而后者能够识别出不同实体对之间的语义关系信息。通过二者的工作特点容易发现,两个任务之间具有较强的关联性。因此,研究者试图将上述两个任务结合起来,充分利用其关联性,以期获取更好的工作效率和抽取效果。本文主要以实体关系联合抽取算法为研究主题,并结合当前自然语言处理领域的热点技术中暴露出的问题展开研究,其主要研究内容如下:第一,调研并复现了目前性能优良、覆盖场景广泛的热点技术——span级别的实体关系联合抽取,并指出现有方法中的不足:尽管此类模型能够考虑到相互嵌套的实体对关系抽取任务所带来的影响,规避了传统序列标注模式的弊病,但是缺乏句法特征的补充。从而导致模型抽取的关系与对应的实体类型组合相关,但是从句子语义的角度看实体之间却并不存在关系的现象。此外,现有研究表明,在多头注意力机制中一些注意力头倾向于关注相似的内容,并没有发挥出足够的语言建模能力。本文针对上述观察进行分析,并讨论其解决思路;第二,基于上述观察,本文提出一个基于BERT预训练语言模型,并结合句法特征融合的多头注意力机制以及关系子句局部注意机制的实体关系联合抽取算法。在进行span级别的命名实体识别任务基础上,按照不同的实体位置,对依存句法树进行剪枝,形成权重,让多头注意力模型中的一部分注意力头对其进行关注,然后对整个句子进行建模,从而在充分利用注意力头的同时,实现句法和语义特征的融合,同时讨论了不同的剪枝策略对模型产生的影响。此外,还提取出句子中的实体对及其之间的上下文,并施加了局部注意力机制,以实现局部语义的深入挖掘。该模型在公开数据集Conll04和SciERC上进行了实验,结果表明,相比于当前性能优异的baseline模型,在F-1指标上分别有着2.4%和3.3%的提升,获得了更佳的抽取效果;第三,利用上述研究成果,结合实际应用场景的特点,开发了一个基于中文影视新闻领域的信息抽取原型系统,该系统能够自动地从公开网络中定期增量采集影视新闻,然后对采集的新闻语料进行信息抽取,并支持以图谱的方式展示出知识抽取的结果,实现了一个从网络非结构化文本中抽取知识三元组的初步解决方案。
其他文献
2021Medtec中国展暨第十七届国际医疗器械设计与制造技术展览会,将于12月20~22日在上海世博展览馆开幕.今年Medtec中国展将于上海世博展览馆1号馆和2号馆同时举办,面积达到28000m2,开创历史规模之最.届时来自25个国家和地区的600多家参展企业将汇聚一堂,其中230家企业首次亮相,其中有源医疗设备配套参展商数量占比35%,数百家企业携新产品新技术再度加盟.他们将展出包含医疗器械研发和设计、自动化生产、原材料、管件挤压和加工、零部件、电子组件、制造设备、表面处理、自动化生产、包装和消毒,
近年来,视频监控行业发展迅速,社区、城市道路、校园、工厂等场景的摄像头数量大幅增加。同时,利用包括人脸识别在内的基于深度学习的图像分析技术来对视频监控系统进行赋能成为了当前视频监控行业重点关注的趋势。而高清摄像监控设备的推广与普及,使得图像质量有了巨大的提升,数据量也呈几何倍数的增长,相应的对这些信息的处理成本也随之增加。为了视频监控设备的更大规模应用,对视频内容进行针对性的过滤变得非常必要,本文
近年来,随着经济与科技的发展,医院陆续引进大量的医疗设备以更好地满足人们日益增长的医疗需求,在用医疗设备数量的增长及精密仪器的增加也给医院的管理带来了新的挑战.为了保证医疗设备能够充分发挥作用,减少医疗设备带来的安全问题,需要采用科学方法管理医疗设备,医疗设备的有效管理成为一个重要课题.以往的医疗设备管理方式不仅需要大量的医护人员付出精力进行管理,而且还要求医疗人员具有较高的管理意识.随着计算机信息技术在各行各业的应用普及,其在医疗设备管理中应用范围也越来越广.文章探讨在医疗设备管理方面计算机技术如何更好
近年来,随着互联网技术迅速发展和各种新型社交平台的涌现,促进了社交网络相关研究在数据挖掘和分析领域的发展,其中网络社区结构和社交关系作为社交网络研究的重点也得到了普遍的关注。社区发现可以挖掘出社交网络中节点间的相似关系,从而进行更进一步的数据分析和应用。位置服务技术的发展为基于地理位置的点评网络的出现提供了前提。这种新型社交网络不仅包含传统社交网络中社交关系的拓扑信息,还包括了用户在不同位置签到的
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术具有较高频谱效率以及较低的实现复杂度,并且它可以有效对抗频率选择性衰落,因此它被广泛应用在许多无线通信系统中。但是OFDM系统也存在其固有的缺陷,它的峰均功率比(Peak-to-Average Power Ratio,PAPR)非常高,而且带外(Out-of-Band,OOB)辐射较高
目的:探讨甲状腺结节灰阶超声影像对甲状腺癌的临床诊断价值.方法:选择2019年1月~2019年12月本院收治的50例甲状腺结节患者,采用甲状腺结节灰阶超声影像检查,了解良恶性的情况和表现.结果:50例甲状腺结节患者中一共检查65个结节,其中,良性病变35个,恶性病变结节有30个,甲状腺结节良性病变中心血流参数PI为(15.13±2.01),周边血流参数PI是(10.13±1.01),中心明显低于周边,P<0.05.结论:甲状腺结节灰阶超声影像对甲状腺癌的临床诊断价值高,有利于为甲状腺结节的良恶性鉴别提供重
目的:分析多普勒超声在妊娠高血压孕妇子宫动脉及脐动脉血流检测中的应用.方法:选取2018年1月~2019年1月本院收治的66例妊娠高血压孕妇,设为观察组,另选取2018年1月~2019年1月本院收治的66例健康孕妇,设为对照组.均给予多普勒超声检查,对比两组子宫动脉搏动指数和阻力指数,以及脐动脉收缩压最大血流速度和舒张末期最大血流速度比值(S/D),统计两组孕妇、新生儿不良结局发生率.结果:观察组孕妇子宫动脉搏动指数、阻力指数、S/D均大于对照组,上述差异具有统计学意义(t=9.052,8.227,11.
目的:阐述经阴道超声诊断子宫内膜息肉的应用方法,观察应用效果.方法:将2017年6月~2020年12月本院收治的子宫内膜息肉患者126例作为样本,126例患者均采用经阴道超声诊断.结果:126例患者全部检出子宫内膜息肉,检出率100%,共27例误诊.126例患者中,阴道超声显示子宫腔内膜区多可见稍高回声,但不均匀.仅少数患者可见低回声及中等回声结节.结节以点状血流信号或条状血流信号为主.部分患者回声内无血流信号,但较为少见.结节边界以清晰者居多.结论:采用经阴道超声诊断子宫内膜息肉,可有效明确结节血流、回
目的:分析行人工膝关节置换术的老年患者在全身麻醉中无创连续心排血量监测的安全性.方法:选择2018年1月~2020年1月于本院行人工膝关节置换术的61例老年患者作为研究对象,均实施气管插管全麻.观察并测定麻醉前后、行人工关节置换术中1h患者心排血量(CO)、心指数(CI).同时测定动脉血氧分压(PaO2)及动脉二氧化碳分压(PaCO2)的相关指标.结果:在全身麻醉后患者CO、CI均比麻醉前低,组间差异明显,有统计学意义(P<0.05);同时在手术过程中患者PaO2、PaCO2指标均在正常范围内,均无异常变
目的:给予老年脑出血昏迷患者正中神经电刺激治疗,观察其促醒治疗效果.方法:将2019年1月~2021年1月于本院进行治疗的老年脑出血昏迷患者作为本次研究对象,共90例,采用随机数字表法分为实验组(n=45)和对照组(n=45),并分别应用正中神经电刺激治疗仪以及电针仪治疗,对比分析两组患者的促醒治疗情况.结果:治疗后,实验组患者的GCS评分多于对照组患者,不良反应发生人数少于对照组患者,P均<0.05.结论:正中神经电治疗仪对老年脑出血昏迷患者的促醒治疗效果良好.