基于远程监督和序列标注的新闻领域实体关系抽取算法研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:RTTR123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展与大数据时代的到来,文本数据的规模正在呈爆炸式增长。新闻文本数据中通常蕴含着丰富的高价值信息,然而用户很难从中高效地获取这些有价值的信息。而信息抽取可以从非结构化文本中过滤掉大量的冗余信息,保留高价值、结构化、高可用性的数据。关系抽取作为其重要子任务,旨在从非结构化文本中提取实体之间的关系。同时,关系抽取的结果还可以应用于人物社交网络的构建、知识图谱的构建等下游任务中。为了挖掘新闻中蕴含的实体之间的潜在关系,本文设计了一种基于远程监督的关系抽取算法与一种基于序列标注的开放域关系抽取算法,并利用所提算法构建了一个关系抽取可视化原型系统。本文的研究内容主要包括以下三个方面:1)本文提出了一种结合句法图注意力机制和序列信息的远程监督关系抽取算法BGSGA。算法将单词的上下文序列信息与句法信息进行融合,捕获互补的语义信息与句法结构信息。算法设计了一种句法图注意力机制,用句法邻域单词的表示来更新当前单词的表示,以此获取依存句法图中单词的句法结构重要性信息。多组实验结果表明BGSGA算法在几个基准数据集的表现优于多个对比算法。2)本文提出了一种基于序列标注和依存句法分析的面向开放域关系抽取算法STDP。算法设计了一种句子重组策略,将带有并列关系的复杂句子进行拆分重组。在最大限度不改变句子语义的情况下,简化句子结构,降低对关系指示短语的标注难度,同时使算法具有捕获重叠三元组的能力。算法利用序列标注的思想在句子中标注关系指示短语,并设计了一种后处理策略,以期得到完整的实体关系三元组。对比实验证明了 STDP算法的抽取效果优于多个对比算法。3)本文构建了基于深度学习的关系抽取可视化原型系统。系统以本文提出的BGSGA、STDP算法为基础,对新闻领域中与核心人物相关的实体及关系进行刻画,满足用户的查询需求。用户在系统前端输入待查询人物,后端通过查询数据库返回与该人物相关的实体与关系,并以关系图与关系表的形式进行可视化展示。
其他文献
随着移动互联网的快速发展,移动应用程序逐渐改变了人们的日常生活方式。在应用市场中的应用数量指数级增长的同时,应用安全设计缺陷和恶意程序的增长也带来了严重的安全威胁,对当前移动应用自动化测试技术提出了挑战。当前,国内Android应用市场中应用功能日益丰富,不仅限于社交类应用,用户与应用之间、用户与用户之间的关联越来越紧密。国内多数应用都涉及了用户账号的注册和登录功能,部分应用核心功能与用户账号紧密
语义分割是智能驾驶领域目前仍具挑战性的重要研究问题之一,使用深度学模型处理语义分割任务已为学术以及应用界的主流。对于语义分割任务,在图像建模过程中考察图像的二维序列关系可以显著地提高深度学习模型的性能,在此基础上,非局部模块以及其他形式的注意力模块得以提出。本文的研究内容重点关注了基于注意力机制的图像序列关系建模以及损失函数的设计及改良,主要内容如下:1.针对图像序列关系建模问题引入注意力机制,利
随着互联网的发展,信息过载成为人们获取感兴趣内容的一个重大挑战。推荐系统作为信息过滤系统的一个子集,能够根据用户本身的属性信息以及商品的历史交互记录来挖掘用户潜在的兴趣爱好与需求,大大减少了用户筛选信息的时间,对于提升用户体验、缓解信息过载问题有很大的帮助。传统的推荐算法通常只考虑了用户和商品的直接交互这种规则的欧几里得数据而往往忽略了实际场景中用户和用户关联,商品和商品关联等等构成的错综复杂的图
近年来,越来越多的应用要求低延迟和高处理能力。移动设备有限的计算能力限制了其在复杂移动应用中的性能。将任务计算机会地卸载到边缘服务器上,可以减少移动设备上的计算负担,提高移动终端的续航时间。然而,由于用户的移动性,网络中边缘服务器上的计算负载会变得不平衡。因此,针对用户移动性异常检测和基于用户移动性进行计算卸载流量均衡,成为一个迫切需要解决的问题。本文在移动无线接入网络场景下,针对用户移动性异常检
近几年以来,随着智能语音设备的普及,人们对语音降噪的需求日益增加,语音增强算法的作用也日益彰显。其中基于深度学习的语音增强算法显示出了巨大的潜力,极大地提高了语音降噪的能力,但是同时也存在着很多问题和挑战,例如通过引入密集连接卷积网络(Dense Convolutional Network,DenseNet)可以提高模型的性能,但是也存在参数利用不充分的问题;损失函数和评估指标不匹配,常用的损失函
互联网技术的快速发展,为人类生产和生活提供极大便利的同时,也带来了巨大的网络安全挑战。渗透测试技术通过模拟黑客攻击方法来检测系统漏洞,可以快速发现网络安全问题,避免造成不可逆损失。近年来,网络安全行业高速发展,涌现出了众多渗透测试工具,大大方便了渗透测试人员对企业网络进行安全性测试的工作。但是,大多数工具只能针对可以直接访问的网络进行渗透测试,而绝大部分安全问题往往存在于测试工具无法直接访问的内部
近年来,随着网络通信技术的发展、5G(5th generation mobile networks,5G)的商业化以及相关设备的升级换代,虚拟现实(Virtual Reality,VR)服务和应用得到了极大的发展。在VR视频业务的应用场景中,360°全景视频的数据传输量通常是传统视频的数倍以上,且由于用户的QoE(Quality of Experience,QoE)要求时延极低,网络中基站面临的压
风险控制系统的建设逐渐变成了互联网金融行业的核心问题与研究热点。风控系统是指能够为风控策略管理人员提供风控策略配置功能,并且能够将风控策略转换为风控服务的软件系统。但是当前已知文献中的风险控制系统建设存在以下问题:1)目前国内外相关文献的研究主要集中于风险控制理论、大数据挖掘、人工智能模型技术、业务架构等,而系统落地实现方面很少有研究,现有的风险控制系统大多数基于自身特定场景下定制化开发,通用性较
近年来,地空通信作为第五代移动通信网络(Fifth Generation of Mobile Networks,5G)中智能交通系统的重要组成部分,受到了学术界和产业界的高度关注。为了对地空通信系统进行方案设计和性能评估,地空场景下非平稳随机信道模型的研究与实现至关重要。地空信道复杂多变,其非平稳特性难以使用平稳的随机过程描述,Markov非平稳信道模型能很好地模拟真实地空信道信号衰落包络在时间轴
语音增强任务可以分为干扰抑制和声源分离两大类任务,是当今语音信号处理领域重点研究方向之一,同时也是自然语言处理关键前端技术之一,具有重要的研究价值。由于传统语音增强算法对信号做出的假设限制了其应用场景,具有强泛化能力的神经网络算法成为了主流的算法。为此,本文主要围绕基于神经网络的语音增强算法展开了一系列研究。1)针对干扰抑制问题,以时域卷积神经网络作为基础结构,重点考察了掩蔽机制、优化准则、残差块