统计与规则相结合的指代消解

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:lqlq2323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的飞速发展,信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,自动文摘系统成为研究的热点。 在现有的自动文摘中,主要以句子抽取式为主,基于事件的自动文摘就是其中的一种,其主要思想是将语料中的事件项抽取出来,根据语义资源确定抽取出来的事件项之间的语义关系,然后根据语义关系计算每个事件项的重要性,进而计算事件项所在句子的重要性并进行排序,最后按序抽取句子组成摘要。根据自动文摘领域对事件项通用的定义,这里所说的事件项是位于两个命名实体之间的动词或含有动词意义的名词。 在正常语料中,会出现很多的代词来指代前面已经表达过的名词或命名实体,根据事件项的定义,在抽取事件项的时候,就会将位于代词之间或代词和名词之间的事件项忽略,从而减少了抽取出来的事件项的数量,这样就会降低自动文摘的性能。所以对语料中的代词进行消解成为自动文摘性能提高的关键。 本文利用基于规则和统计相结合的方法对自动文摘源语料中的代词进行消解,首先利用单纯的规则方法对语料中指代命名实体的代词进行消解,通过对召回率和准确率以及消解后的文章进行分析,可以看出其不足在于不能很好的确定哪些代词指代命名实体,针对这一问题将统计中的最大熵的方法和规则相结合进行消解,利用最大熵的方法来弥补单纯规则的方法所出现的不足,准确确定哪些代词需要消解,提高消解的准确率和召回率,增加语料中命名实体的数量,从而尽可能多的抽取出语料中的事件项来提高自动文摘的性能。实验结果表明利用消解后的语料生成的摘要比利用消解前的语料生成的摘要性能提高了近8.5%,并且文摘的可读性,信息量也有明显的提高。
其他文献
随着Internet的发展和普及,图像数据的数量飞速的增长,传统的基于关键字的图像检索已经不能够满足海量图像检索的需要。图像检索成为图像应用领域中的研究热点之一。他融合了图
本文针对北京铁路电气化学校教务管理的需要,设计与实现了基于B/S架构的教务管理系统,选择了SQL SERVER 2000作为数据库,系统的开发采用了ASP动态网页技术,实现了系统登录、
软件测试在软件开发过程中有着越来越重要的地位。它贯穿于软件定义与开发的整个期间即整个软件开发过程。从设计规格说明中产生测试用例是测试阶段的一项重要工作,而它的主要
隐通道问题使实施自主存取控制和强制存取控制的多安全级软件系统有了新的挑战,成为开发高等级可信软件系统过程中的难点和关键问题,在国际上得到了充分的重视。信息流分析法
实时系统因为其响应速度快,可靠性高的特点,在经济,军事,科研,运输等领域扮演着重要的角色。当前处理器由于较高的能量消耗,导致处理器热量散发的提高及系统可靠性的降低,同
由曲面的二维灰度图像重建其三维形状已经成为计算机视觉领域的一个研究热点。对该问题进行了深入的研究,提出了一种从单幅图像出发,采用轮廓线进行旋转曲面重建的方法。该方法
学位
空间关系与人类认识、改造现实世界的活动息息相关,它是人类对于地理空间认知结果的高度概括,是人类所形成的空间概念中最重要的基本组成部分,是进行空间描述、推理与分析的
随着现代社会日益趋于网络信息化,网络信息系统在日常生活中扮演着越来越重要的作用。虽然各种传统的安全措施提高了网络信息系统的安全性,但各种攻击、故障和意外事件还是会
实验室和实训基地是高校尤其是高职院校的重要教学场所。随着计算机应用技术的普及和和公共计算机实验室对外开展业务逐步增多,因人为原因和流行网络病毒对实验室软件、网络
学位