基于实例动态泛化的共指消解及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tp13140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共指消解是自然语言处理中的核心任务,它对于信息抽取、信息检索、篇章分析、自动文摘、信息过滤和机器翻译等都具有重要的意义。本文对基于实例动态泛化的共指消解方法中存在的若干问题进行了改进;开发了多种共指链生成方案用于合并二元分类结果,从而提升共指消解的性能指标;我们将基于实例动态泛化的共指消解方法应用在自然语言处理的其他任务上,帮助提升这些问题的处理效果。本文重点研究了三部分内容:基于实例动态泛化的共指消解方法中的相关问题;二元分类结果合并也即共指链生成方案的研究;以及基于实例动态泛化方法在自然语言处理其他任务中的应用。基于实例动态泛化的共指消解方法的相关工作主要集中在Mention识别和精确泛化点的构建两部分。我们开发了基于分类方法和基于序列标注方法两类Mention识别算法,改善识别效果解决层级错误传递问题。此外,为了解决泛化点的质量问题,我们引入了精确泛化点概念,通过抽取更为准确的特征改进消解算法,在多种语料上的实验证明了我们工作的有效性。在二元分类模块之后,下一步需要解决共指链生成方案。本文讨论了三种二元分类合并算法:基于词汇信息的方法;基于分类置信度的方法;基于Ranking的方法。这三种方案原理不同,适用场合不同,取得的效果也有所差别。我们对这三种方案进行了详细的分析比较,证明了我们工作的有效性,但这种合并始终受限于二元分类过程的处理精度,很难取得根本性的突破。在二元分类算法和共指链生成方法的基础上,我们把基于实例动态泛化的共指消解方法应用在了全局实体关系抽取任务上。这项任务不同于传统的句子级关系抽取,而是针对篇章中的所有实体进行关系抽取,不限于同一句子中。这项任务需要引入篇章级别的信息,包括共指以及并列等。通过音乐领域的实验证明,利用共指消解方法引入篇章信息之后,可以大幅度提高全局实体关系抽取效果。
其他文献
论文对国内现有的几种汉语自动分词中的歧义字段切分算法进行讨论,重点分析了BP神经网络的局限,提出了改进,建立了新的BP网络歧义切分模型,使其对于歧义字段的切分精度和效率进一
随着数据采集、处理、预测等技术的不断进步,不确定序列数据普遍存在于科学、通信、物流、金融等领域的具体应用中。本文首先关注于一般形式的事务序列数据库中的频繁模式挖
随着文本信息的迅猛增长,信息处理已经成为人们获取知识不可缺少的工具。文本分类是信息处理的重要研究方向,它有效地提高了信息服务质量,使用户更加容易、准确地定位所需的信息
随着科学技术的飞速发展,大型复杂系统中控制逻辑的规模和复杂性日益提高,因此影响系统运行的因素也不断增加,系统发生故障和失效的可能性也相应增多。系统一旦发生故障将导
随着现代交通技术的发展,智能交通系统作为一个热门的研究领域,日益受到广泛的关注,而车牌识别系统是智能交通系统中的基础环节和重要组成部分。车牌识别系统主要包括车牌定
随着社会科学技术的发展和人类认识水平的提高,网络设施体现了更高的异构性、多样性和复杂性。Cyberspace(网际空间)作为新兴的技术领域,在人类生活中体现的重要性越来越高,
基于视频的人体运动分析就是对视频中人体的运动进行检测、跟踪,并获得各肢体或关节间运动信息及参数的技术,它是计算机视觉领域新兴的前沿研究方向之一,在智能监控、体育视频分
三维人脸建模是一个多学科交叉的研究课题,涉及到计算机图形学,模式识别,计算机视觉,面部解剖学,人机交互等多个不同学科,具有重要的科研意义。在游戏,电影,通信,医疗等领域有着广阔的
随着计算机技术的发展,移动设备的普及,通信技术的成熟,移动自组织网络获得了广泛的应用。服务发现技术是移动自组织网络中至关重要的技术,同时也是许多其他网络应用的基础,
随着信息化网络时代的飞速发展,数据爆炸性增长的“大数据”时代已经到来。而现实生活中,文本仍是数据的主要存在形式。面对如此浩如烟海、杂乱无章的文本数据,传统的人工处