融合扩展词的句法文本图卷积事件抽取研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tingyuanzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社会各领域资源需求的迅猛发展,让信息技术的发展变得如火如荼。信息技术的飞跃发展,导致大量无规律结构的信息以文本形式展现在各领域。过量无结构的文本信息没有对应的技术进行处理与利用,导致流失过多的知识与价值,所以信息抽取技术应运而生。信息抽取是利用一定的计算机技术,从文本、语音、图像、视频等数据中找到他们传达信息的结构和方式,进行自动抽取信息并将其结构化显现出来的过程,而事件抽取,则是信息抽取领域中将知识结构化展现在人们眼前最重要的技术和内容。信息抽取技术旨在从无结构,杂乱无章的原始数据中提取有价值的信息,而事件抽取是信息抽取和知识构建任务中最为重要的部分,能够将文本中的信息和知识以结构化方式和较为全面的角色诠释显现出来。事件抽取技术将特定的事件和事件实例从文本中提取出来,并将完整结构的事件存放入知识库中。本课题研究的主题能够缓解相关单位文本数据信息的爆炸,除此之外,还能发现更多尚未被挖掘的知识,深入利用自然世界中可提取的一切价值。本课题的主要研究内容是事件聚类的全过程,主要分为触发词识与论元分类两个模块,具体为事件抽取的过程中和与知识图谱链接的过程中涉及到的几个关键步骤。主要研究以下内容:(1)事件触发词检测归类与参数识别:事件抽取的整个过程中,事件触发词的识别占据着重要的位置。触发词是识别事件类型的重要角色,它的定位代表整个句子片段所包含的事件类别和事件个数。触发词不仅与识别事件类型息息相关,也深深影响到到后续论元的提取,关联整个事件架构的构建。本文研究通过扩展触发词和文本图卷积的操作,来提高识别文本中的触发词的精确度,增强事件识别与归类的效果。(2)事件论元角色分类抽取与结构化抽取研究:事件论元的抽取也是完善整个事件结构的必要步骤。论元抽取与识别就是从文本中找到各对应事件类型下相关的角色,将其变为标准的格式后进行填充。本文在分析与识别出了文本中的触发词和事件类型之后,通过句法依存分析与改进k-means聚类算法,来抽取文本片段中与触发词有联系,并且在事件实例中参与构成了重要作用的论元角色。事件的组成和结构完整度不仅与触发词识别的事件类型相关联,也与论元角色的抽取数量程度有关。与触发词相关的论元被多多抽取出来,能够完善整个事件实例的结构,让人类更清晰直观的实现对整个事件实例的可见度。本课题的实验结果分为两个模块显现,分别是通过图卷积提取事件触发词其识别效果的实验和通过分析句法依存与改进k-means算法来识别每个事件种类的论元构成的实验。实验结果表明,事件触发词抽取方面,在ACE语料库中,通过图卷积进行事件触发词识别的效果较为良好,在CEC语料库中,扩展触发词表再进行图卷积语义学习,能够收获更为良好的实验效果。论元识别方面,通过句法依存分析句子结构,再利用改进的k-means算法来识别论元,与使用改进前的k-means算法效果相比更为精确,在设备性能方面达到更为节省的利用率,各元素识别效果都能得到大大的提升。
其他文献
与单任务学习(STL)相比,多任务学习(MTL)通过在多任务模型中的任务之间共享信息以获得了更好的分类器。在多任务学习中,目标任务利用多个非目标任务的训练信号所拥有的相关经验信息来提升模型的泛化效果。在训练过程中,每个任务所携带的数据信息都是关于某一领域的信息,但各任务数据之间有所差别。大多数现有的多任务学习方法在训练过程中仅关注训练任务的相关数据,而忽略了训练任务中其他非相关但可能包含有用信息的
随着“云”及大数据时代的到来,校园对出口通向Internet的带宽流量要求越来越高,只要校园网络的内部带宽高于校园出口的带宽,在校园网络的出口边界上都会出现流量瓶颈。当网络出口流量出现瓶颈时,网络管理员能否快速调整网络配置策略以平滑网络流量,成为衡量网络管理水平的重要标尺。本文从作者所从事的网络建设与管理工作实践出发,对校园网络系统架构进行研究,调研分析了目前市场上流行的网络监控系统主要是对网络设
随着分布式、大数据、云计算等信息技术以及传感器和嵌入式等硬件技术的快速发展,使得CPS技术在解决工业中实际应用场景的问题有了多种多样的解决方案。复杂工业中大数据下的CPS系统任务调度过程中容易因为数据高并发、资源异构、任务性质复杂造成系统负载不均衡,导致在任务调度过程中因任务量积累的负载增加无法进行均衡,直至系统宕机。即使目前有许多云计算调度算法能够很好的解决分布式集群系统中的负载均衡问题,但在C
素描画作为一种特殊的艺术风格图像,在信息传递、娱乐等地方都发挥着举足轻重的作用。它是视觉艺术中用于抽象人类对自然场景的感知的最基本的绘画语言之一,建立了指向艺术家视觉记录的紧密链接。随着手机摄像技术和互联网共享的普及,获得高质量的图片比构建艺术场景的模型要容易得多。因此,从照片中绘制铅笔素描的需求就会大大增加。目前,铅笔素描是被人快速完成的作品,并没有被加入很多细节。艺术家通常是使用素描来描绘整体
随着信息技术的发展以及移动终端的普及,互联网数据不断膨胀。海量信息在丰富人们生活的同时也使得人们难以定位到自己需要的数据。如何帮助用户高效地筛选有用的信息是当前大数据时代亟待解决的问题。推荐系统根据用户历史数据推断用户的兴趣爱好,帮助用户寻找需要的信息,能够在一定程度缓解信息爆炸问题。推荐算法受到学术界和工业界的持续关注,不同类型的技术被相继提出,其中一类代表性算法是协同过滤算法。协同过滤算法简单
步态识别作为一种生物识别技术,具有能360度全方位识别、识别距离远、难以伪装,不需配合等特点,相比传统生物识别技术用处更加广泛。太赫兹技术因为其无害安全便捷而在安检领域的应用越来越广泛,它用于安防场景可以发现人体隐匿危险品,从而定位可疑人物,通过被动式太赫兹人体步态视频图像准确识别可见光下对应的犯罪嫌疑人是我们亟待解决的问题。由于太赫兹视频图像只包含人体剪影,识别人物身份需要利用步态识别技术。研究
在如今的线上购物网站、在线社区和社交媒体中,文本评论已经成为研究人员研究用户行为和理解各种现象的最重要的数据源。在电商网站上购物多样性的兴起,使得人们每天都能在网上购买自己需要的商品,同时也可以随时表达自己对某件商品的感受和意见。文本评论的情感分析引起了政治学、市场营销、传播、社会科学和心理学等领域的研究人员的关注。分析评论文本的情感倾向,在线上购物网站和社交媒体上研究用户行为是一个重要的研究方向
移动互联网的快速发展,极大推动了人们对基于位置服务的需求。作为基于位置服务要素之一的定位自然而然成为人们关注的重点。根据定位技术的适用范围,我们将定位分为室内定位和室外定位。对于室外定位已经有卫星定位这样成熟且已大规模应用的解决方案,与之对应的室内定位则还在研究阶段,原因在于室内环境的建筑结构复杂,人员流动频繁以及电磁环境复杂,导致室内定位误差较大。本文针对室内定位误差较大,准确度不高的问题,提出
眼动交互普遍应用在行为学分析、医疗辅助和智能化系统中。眼动交互的关键技术为眼动追踪和眼动行为识别。随着人工智能出现,眼动追踪和眼动识别应用了深度学习技术,实现了无需眼动仪也可完成相应的追踪和分类任务。本文重点就基于卷积神经网络(CNN)的视线追踪和眼动行为识别技术进行研究,主要工作有:1.基于卷积神经网络的视线追踪技术研究。基于卷积神经网络的视线追踪包含了独立于人(person-independe
Internet的快速发展带来了Web上的各种服务,例如电子邮件,购物,社交聊天,银行服务,娱乐等。人们可能拥有相当多的Web身份(即登录帐户和密码),从而导致一种称为“密码疲劳”的安全问题。丰富的Web服务的可用性使我们的生活变得方便,但同时也带来了挑战性的问题,包括密码疲劳、暴力密码破解或其他密码攻击,网络钓鱼,数据泄漏,甚至是来自量子计算机的攻击。用户一般需要使用帐户和密码来访问各种平台和系