基于深度学习和序列标注的文本因果关系抽取研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:y2228158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言文本中存在着大量的因果关系,因果关系挖掘任务在信息抽取、关系推理以及事件预测等研究领域都起着至关重要的作用。随着深度学习的崛起,因果关系研究已从传统的模板匹配和机器学习方法,发展为训练神经网络实现抽取,不仅可以识别因果语句,还可以通过序列标注方法获取文本中的因果关系对,并且深度学习技术训练的神经网络模型可以显著地提升抽取准确率。同时,通过序列标注得到的因果关系可以更好地用于构建因果关系网等上层任务。本文主要利用深度学习和序列标注相关技术,研究从中、英文自然语言文本中抽取因果关系。首先,针对当前英文因果关系抽取研究中存在的边界划分能力弱、难以捕捉深层次因果语义特征的问题,将Relative Attention与依存句法图相结合,提出了Graph Relative Attention(GRAT)网络,并结合Dependency-Guided LSTMCRF框架构建了DGLSTM-GRAT-CRF模型,该模型具有较强的捕捉长距离依赖的能力,能够正确识别因果事件界限,可以更加准确地抽取英文文本中的因果对。其次,针对当前中文因果关系抽取中存在的语义表征不足、难以捕捉局部信息与长距离依赖特征的问题,本文利用Soft Lexicon技术在传统的依赖字符的序列标注模型中融合了词汇信息,将字符间所有可能匹配到的词汇并入相对应的字符编码中。同时,结合Star-Transformer设计了Soft Lexicon-Star-Bi-LSTM模型,该模型能够捕捉出远距离因果语义信息与局部特征,可以更加准确地抽取中文文本中的因果关系。最后,收集各种公开中、英文因果关系语料,构建了中、英文因果关系数据集。针对英文因果数据集标注方法不统一、语义表达不完整等问题,提出了一种基于依存句法关系的因果序列标注准则,该准则可以有效地解决抽取因果对语义表达不完整的问题。同时,对实验数据集按照标注准则进行了人工标注,构建了中、英文因果关系数据集。在中、英文因果关系数据集上,本文分别将构建的两种因果关系抽取模型与其他基准模型进行了对比,实验结果表明本文提出模型的性能优于对比模型。
其他文献
实施公立医院人力资源管理时,制定科学合理的人才激励机制,满足市场发展对高素质人才的需求,提高公立医院的市场竞争力。鉴于此,文章选择公立医院为背景进行研究分析,分析人力资源管理中人才激励机制的作用,总结公立医院实施人才激励机制存在的问题,结合实际情况提出完善公立医院人才激励机制的措施,促进公立医院的健康发展。
期刊
频繁图模式挖掘是数据挖掘中的研究热点,频繁子图挖掘是频繁图模式挖掘的新兴研究方向,在社交网络中发现频繁子图对于理解社会互动、研究疾病的传播有重要的作用,然而在挖掘及发布时又会带来隐私泄露的风险。因此,针对静态场景及动态场景的频繁子图挖掘的隐私问题,提出了以下两个算法:(1)针对静态场景,本文提出了一种更加安全有效的满足差分隐私的深度优先搜索频繁子图挖掘算法DP-g Span。传统方法主要是基于差分
学位
本论文运用媒介经营管理理论与方法,以达拉特旗官办大众媒介为研究对象,对其进行了系统地研究。达拉特旗媒介自1950年在政府所在地展旦召建立广播收音站为开端至此已有72年的发展历史。在不同的历史发展时期,达拉特旗按照党中央关于媒介事业发展的决策部署与新闻宣传思想工作的要求积极建设旗县基层媒介事业,建设起现代化媒介机构,优化和改进经营管理体制,以更好地宣传和服务达拉特旗社会经济、政治、文化的发展。在今天
学位
专利作为知识产权的重要载体,在科技创新中发挥着极其重要的作用。一篇专利的价值实现,能在经济、法律和科技等方面带给专利权人巨大收益。因此如何实现专利的价值,一直是业内外人士所共同思考的问题。为此,我们将专利的价值实现分成了两个方面:专利估值和专利转化。其中专利估值帮助我们筛选和培育高价值专利,而专利转化则帮助我们完成高价值专利的转化。目前,一些自动化的专利价值实现模型从专利估值或专利价值转化的角度进
学位
基于车联网行业以及通信技术的发展,目前涌现了大批人工智能相关的智能应用,如自动驾驶、语音交互、路况预测等,大大提高了人们的驾驶体验,优化了道路的驾驶环境,但这类应用的特点是对计算资源和存储资源要求很高。传统的云计算(Cloud Computing)范式能够通过网络为移动设备提供算力的扩展,但由于车辆与云计算中心通常距离较远,通信延迟较高,计算任务的延迟要求往往无法得到满足。因此出现了车辆边缘计算(
学位
目前,事业单位思想政治工作虽然取得了一定成效,但随着时代的进步与社会的发展,事业单位需要加快思想政治工作改革与创新步伐,改善内部结构,注重思想政治工作的改革与创新,使事业单位发展符合时代需求。在新时代,事业单位需要进一步增强对思想政治工作的引导,分析不同时期存在的问题,并提出相应的解决措施,助推事业单位高质量发展。
期刊
近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知
学位
场景文本识别(Scene Text Recognition,STR)是指识别自然场景图像中的文本。印刷文本大多经过排版,其背景单一、清晰度高。相较于印刷文本,识别各类场景中的文字,其难度更具挑战。目前,场景文本识别研究存在以下问题:第一,使用较为广泛的编-解码器结构的识别模型,大多以LSTM(Long Short-Term Memory)作为解码器。由于LSTM是多个重复模块串联组成的链式结构,只
学位
“强基计划”是回应国家战略需要、在反思自主招生基础上探索拔尖创新人才选拔与培养相衔接的人才培养模式。由于“强基计划”自身的制度障碍、家长和考生认识不到位等原因,高校“强基计划”战略“遇冷”。在分析“遇冷”基础上,提出一系列改进举措,包括:高校要制定多元化录取方案,改革考试评价体系;强化衔接教育,贯通人才培养模式;健全保障机制,助力政策落实;完善监督举报机制,提升政策执行效能等实施路径。
期刊
在新医改背景下,如何在公立医院自身发展中构建夯实基础的地基,如何进一步提升公立医院人力资源管理机制的长久性,可持续性发展问题,成为公立医院亟须解决的重要课题。人力资源管理的长久性、稳定性、可持续性,在一定程度上影响着公立医院内部结构整体布局及外部影响力,影响着公立医院今后的发展方向及医疗质量服务水平。激励机制作为公立医院重要的“资产”组成部分,在人力资源管理中如何将激励机制有效应用于公立医院发展实
期刊