面向非结构化文本的事件抽取算法的研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xujuenrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取的本质是从大量非结构化、未经处理的信息中抽取出完整事件,包括事件触发词和一系列事件要素,并以结构化形式存储和展示。事件抽取技术为当代社会中态势感知、社会治理、决策辅助和应急处突等重大需求提供了技术支撑,有着重要研究意义和价值。当前事件抽取领域存在着对复杂语义环境抽取效果不佳等问题。故本文围绕事件抽取任务,进行了如下主要研究:1.针对事件触发词抽取定位和分类不准确等问题,现有方法主要利用句子级别上下文信息,没有考虑文档语义和文档主题信息。为此,本文提出基于注意力机制和Bi-GRU的事件触发词抽取方法。通过Bi-GRU挖掘上下文语义信息,采用词级别注意力关注句子中的事件触发词,采用句子级别注意力关注包含触发词的句子,综合关注的结果获得文档语义。同时,基于对文档重点结构句的编码获得文档主题信息。然后通过另一个Bi-GRU结合获得的文档语义信息和主题信息进行事件触发词抽取。在ACE2005数据集上的实验验证了本模型在触发词抽取任务上的有效性。2.针对事件元素抽取中角色重叠和分类准确率不高等问题,现有方法对于获取事件元素所在上下文深层次语义信息效果不佳。为此,本文提出基于BERT和注意力机制的事件元素抽取方法。本方法结合BERT预训练模型和多重语义信息获得丰富的词表示,通过已抽取出的事件触发词和候选事件元素获得事件特征表示,然后基于注意力机制获得动态的句子向量表示,结合事件特征和句子表示进行事件元素抽取。相同数据集上的实验验证了本模型在元素抽取任务上的有效性。3.完成面向新闻领域的事件抽取系统。当前对社会治理智能化提出了新的要求,本文结合国家发展战略需求,基于提出的事件触发词和事件元素抽取模型,设计并实现了面向新闻领域的事件抽取系统,为社会治理提供理论和应用支撑。
其他文献
镁合金作为最轻的结构金属材料,具有高比强度、高比刚度以及优良的导热性能和电磁屏蔽能力,受到了人们的极大关注。然而,镁合金因其HCP晶体结构,滑移系少,塑性成形能力较差,且强度不够高及耐磨性能差,极大的限制了镁合金的广泛应用。本文对Mg-6Al-3Zn-2Sn合金热压缩过程中的变形机制、时效处理对组织性能的影响以及摩擦磨损过程中亚表层微观组织演变这三个方面进行了研究,为高性能镁合金的开发和变形加工提
学位
当前,在水产养殖为全球提供大量优质蛋白质和促进经济发展的同时,其对环境的负面影响日益引起广泛关注。传统池塘养殖模式主要依赖换水维持养殖水环境,养殖尾水排放量大,水资源消耗严重。循环水养殖系统(RAS)利用硝化微生物构建自养型生物膜,实现氨和亚硝酸盐的有效去除与水资源重复利用,是水产养殖业的重要发展方向。与此同时,随着养殖密度提高和水域环境不断恶化,由细菌、病毒和寄生虫侵袭导致养殖生物疾病频发,部分
学位
现代工业厂房多为高大空间,采用控制整体热环境的空调系统往往会造成建筑能耗过高,运行成本上涨。为保证夏季高温环境中体力劳动者的身体健康,改善其热舒适性并提高其工作效率,可以通过局部冷却的方式实现对热环境的个体化控制。目前偏热环境下局部冷却对人员影响的研究,大多数针对办公等轻度活动水平,且对局部位置的热舒适研究不够完善。此外,由于局部冷却对人体相关热生理参数的影响缺少系统性的探索。对此,本文将以人员的
学位
视频质量增强算法一直以来是音视频研究领域的一个热点,传统的方法都是使用编码压缩算法对视频文件进行编码压缩,经过这种有损压缩的方式后,虽然视频文件的大小显著降低,但其在解码端呈现的图像质量却有待加强。一般来说,视频压缩算法的压缩比越高,那么节省的空间就越大,而损失的图像信息也就越多。由于深度学习技术的逐渐流行,越来越多的学者尝试在视频图像质量增强方面使用深度学习算法来寻找突破。本文提出了一种领域自适
学位
随着工业4.0的发展,信息化技术逐渐运用到工业,使得工业逐步向智能制造的方向发展,这也要求工业软件向智能化和云服务化的方向发展。NX平台也在向该方向发展。但是由于NX平台非开源、缺乏数据集,智能化仍处于探索阶段。NX Measurement是NX平台的测量系统,是NX平台的核心系统之一,如果能提高其智能化程度,就可以提高NX平台的便利性和用户体验感。基于以上背景,本文将通过推荐系统,对用户预期的测
学位
“固化/稳定化+填埋”是我国主流的垃圾焚烧飞灰处理技术路线。针对稳定化飞灰填埋区可能存在的覆盖层老化、破损,防水、防雨、防渗措施不完善等情况,构建了“模拟酸雨”和“模拟渗滤液”两种入侵外环境。以分阶段进水方式探究了模拟酸雨(硫酸-硝酸溶液)和模拟渗滤液(醋酸溶液)在6种典型渗流路径下对填埋螯合剂稳定化飞灰中重金属(Pb、Cd、Zn、Cu、Cr、Ni)浸出行为影响,并评估了液相和固相中重金属的潜在环
学位
基于机器学习的智能模型在出行、消费、医疗等领域已经有了广泛的应用,对人们的生活、学习以及工作都产生了深远影响,这都得益于人工智能的三大支柱算法、算力、数据的飞速发展。当人类思考问题时,会结合问题相关的空间关系、因果关系、科学事实和社会习俗常识等背景知识来分析问题,这类知识对人类来说微不足道,但是目前的人工智能模型仍然无法获取,近年来大量的研究开始尝试向智能模型中融入常识知识,常识推理问答成为了人工
学位
在这个信息“大爆炸”的时代,每天都会产生大量的信息,而图像是信息的重要载体。现实中许多图片包含丰富的信息量,往往有着不止一个标签,因此多标签图像的分类问题受到许多学者的重视。得益于深度学习的崛起,多标签图像分类也有了丰富的研究成果,并在医疗图像、智慧交通等领域成功应用。然而,深度学习方法普遍高度依赖于大量的标注数据,但在实际应用中,获取高质量的标注数据成本十分高昂。主动学习的核心目标在于通过合适的
学位
近年来,深层的脉冲神经网络由于其强大的特征提取能力,逐渐得到学者们的重视。训练高性能的深度脉冲神经网络(Spiking Neural Networks:SNNs)需要大量的标记数据,但在实验过程中给海量数据打标签是耗时耗力且高成本的一项工作。为了减少训练深度脉冲学习模型所需要的已标记数据量,提升训练模型的效率,本文旨在研究脉冲神经网络上的主动学习方法。目前基于传统人工网络的主动学习策略研究较多,却
学位
近年来,随着机器学习技术的不断发展,更多具有挑战性的机器阅读理解数据集不断被提出,机器阅读理解技术成为了热门研究方向。近期,两个考验机器逻辑推理能力的阅读理解数据集Re Clor和Logi QA受到了研究者们的关注,当前主流的预训练模型更多关注单词级语义,对文本逻辑关系的捕捉能力较弱导致逻辑推理能力较低。本论文结合预训练模型和符号模型的优势,提出基于混合推理的阅读理解模型,并通过加深预训练模型网络
学位