中文事件时序关系识别与推理方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:fyq20061001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息资源爆炸性增长的环境下,信息抽取成为一种从海量资源中获取有价值信息的重要手段。事件时序关系识别是事件信息抽取的后续任务,对问答系统、信息抽取和文本自动摘要等自然语言处理应用起重要作用。本文主要从中文事件时序关系语料库构建、事件时序关系识别及事件时序关系推理三个方面进行研究,主要研究内容如下:(1)中文事件时序关系语料库的标注与构建语料库建设是自然语言处理领域的基础性研究工作。针对中文事件时序关系语料资源匮乏的问题,本文以ACE2005中文语料库为基础,借鉴Time ML体系的时序关系分类标准,构建了一个稠密型的中文事件时序关系语料库。(2)有监督中文事件时序关系识别将事件时序关系识别看作分类问题,本文采用有监督机器学习方法来识别事件之间的时序关系。在现有英文相关研究所用特征的基础上,根据中文的特点引入触发词语义、特殊词、事件论元、事件因果关系及事件同指关系等有效特征,用于提高识别系统的性能。实验表明,这几类特征对中文事件时序关系识别均有较大帮助。(3)基于全局优化的中文事件时序关系推理针对有监督机器学习方法存在的缺陷,本文提出一个全局推理模型来解决这一问题。将事件时序关系全局优化转化成整数线性规划问题,并使用了自反性、传递性、同指性、时间表达式比较、时序连接词、事件类型对等多个约束条件进行优化。实验结果表明,全局推理方法要明显优于局部强规则推理方法和分类器方法,很好地解决了分类器方法存在的问题。本文从语料库构建和关系识别两个方面对中文事件时序关系进行了探索性研究。虽然所提方法还较为简单,但将有利于该领域以及相关领域的进一步研究。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是以微机电系统结合嵌入式技术,由大量多功能传感器节点以自组织形式构成的监测网络。目前,不仅仅在军事和科学研宄中其价值得
流形学习自2000年提出以来受到了人们广泛的关注并取得了长足进展。传统流形学习方法需要足够多的训练样本学习高维数据的低维嵌入表示,所以,在单样本训练情况下,流形学习仍
本论文结合上海科委的智能手机项目,在以Hybus的pxa272开发板和展讯的SM5100B通讯模块为硬件开发平台的基础上对智能手机系统软件展开研究,提出了一种基于嵌入式Linux的智能
运行时验证是一种轻量级的形式化验证方法,它通过检测目标系统的当前执行是否满足给定的高层规约来实现对目标系统的验证。对于复杂的验证系统,运行时开销有时是非常巨大的。减
本课题的任务是为安全微处理器LX-1164设计片内的存储控制单元与高速缓冲存储器控制器。设计实现了一个片上内存管理单元与Cache控制器的设计,提出了一种64位超标量微处理器
软件测试是保证软件产品可靠性和正确性的有效方法,其中设计和生成有效的测试用例是决定测试质量的重要因素之一,而测试用例自动生成可以节省测试时间,降低开发成本。模型检验是
本文依据软件工程开发软件的严格要求,着重阐述了药品信息管理数据库系统设计,介绍了药品信息管理系统的详细设计和开发过程。 鉴于医药管理信息化已经成为医药行业发展的大
网页链接的抽取是指将网页源代码中的<a>标签的href属性的取值按照用户的需求提取出来。目前网页链接的抽取主要是将网页中全部链接抽取出来,并没有对链接进行分类,抽取的结
虚拟现实系统能够逼真地模拟真实场景,与其他信息载体相比具有直观、具体、生动、信息量大、具有实时性和交互性等许多显著优点,它能提供给参与者真实的体验和逼真的感受,这些优
无线体域网是近年来新兴的具有广阔发展前景的技术,其将会对我们未来生活的各个方面产生巨大的影响。比如基于无线体域网的健康监控系统,它不仅能够让长期住院的病人离院治疗