基于图模型多文档自动文摘研究

被引量 : 11次 | 上传用户:wzx85695021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子打分是基于抽取的自动文摘中的最为关键的问题之一。近年来,基于图模型的句子打分算法成为本领域研究的热点问题。通过将句子连接成一个文本图,然后在图上使用全局的信息不断迭代计算句子重要度,从而获得了较好的性能。本文重点研究基于图模型的多文档自动文摘中的句子打分算法。主要研究这其中最为关键的两个问题:(一)如何在已有图模型中加入“文档”这一维信息,做到真正的多文档自动文摘;(二)针对面向查询的自动文摘,怎样更加充分利用用户的查询信息。本文建立了一个通用的、可用于其他应用的框架,并在多文档自动文摘中检验算法的正确性与有效性。针对问题(一),本文采取了两种思路:(1)隐式和(2)显式添加文档信息到已有的图模型和算法中。对于思路(1),已有的基于图模型中仅考虑了句子-句子之间的关系,而忽略了“文档”这一维以及文档对于句子的影响。本文提出了“文档敏感”图模型,将全局的文档的信息用来影响已有的句子-句子(句子-查询)的关系定义,从而达到文档信息隐式影响句子打分算法。对于思路(2),本文提出了“相互增强链”模型,以[115]提出的“互相增强”(Mutual Reinforcement,或简称为MR)规则为基础:“如果一个词在一些分值很高的句子中出现,那么该词应该得到很高的分值;同样地,如果一个句子包含了高分值的词,也应该得到更高的分值”。Zha的算法是针对单文档的查询无关的自动文摘句子打分算法,针对多文档自动为摘,本文提出将三种不同粒度的文本(文档、句子、词)集成到相互增强模型中,从而形成一个“相互增强链”,达到让文档信息显式地影响句子打分过程。更进一步,本文就“相互增强链”模型中的参数设置进行了深入的理论探讨和实验分析,并在此基础之上提出了“两层相互增强”打分算法,从理论上分析其权重矩阵,得出了该模型和算法的一个重要性质,并从实验上得到了验证。针对问题(二),本文设计了一个查询敏感的相似度来衡量两个文本之间的相似度,处理面向查询的多文本摘要。主要考虑给定一个上下文环境(本文中为用户的查询信息),设计衡量在此上下文环境下的文本(如文档与文档,文档与句子,句子与句子,文档与查询,句子与查询等)之间的相似度。考虑到向量空间模型(Vector Space Model)以及余弦相似度(Cosine Similarity)已成为信息检索、文本处理应用中最为广泛且效果最为显著的模型,本文中提出的查询敏感的相似度可以与此统一起来。考虑到评测数据集的问题,本文主要针对英文语料,但是本文提出的算法和模型也可以供其他的语言语料自动文摘参考或使用。本文的主要贡献在于:1)提出了在目前基于图模型的多文档自动文摘模型和算法中隐式添加文档信息:文档敏感图模型和算法。2)提出了在目前基于图模型的多文档自动文摘模型和算法中显式添加文档信息:“相互增强链”模型和算法。在此基础上进一步从理论和实验上对该模型中的参数设置(尤其是权重矩阵)进行了研究,并提出了“两层相互增强”打分算法,得出了该模型和算法的一个重要性质。3)提出了一种查询敏感的相似度,更好地将用户提供的查询信息放入到句子.打分算法中。本文提出的查询敏感的相似度对于相关研究领域(信息检索、自然语言处理、信息抽取等)亦有参考和借鉴意义。4)针对本文提出的模型、算法,均从理论上做了细致深入的探讨,使得本文提出的模型、算法更具有通用性。5)针对本文提出的模型和算法,在查询无关和面向查询多文档自动文摘中验证了模型和算法的可行性与有效性。
其他文献
<正>工程概况台湾大学发起的企业捐赠计划收到永龄健康基金的大额捐赠,用于建立一所综合肿瘤医院,希望此工程在台湾大学医学院管理下,以HEARTS精神(希望、教育、关爱、研究、
2005年1月,中央纪委第五次全会、吉林省纪委第六次全会、全国教育纪检监察工作会议相继召开,对教育系统反腐倡廉工作提出了明确要求。为贯彻落实以上会议精神,部署今年全省教
为了提升学生的综合素质,文章分析了在小学语文教学中开展国学经典诵读的必要性,并阐述了国学经典诵读在小学语文教学中的实践探索,即营造良好的国学经典诵读氛围;开展相关活
本文提出地方新型城镇化的概念是,地方新型城镇化是与地方历史风貌保护、文化传统保护、环境资源保护、经济发展价值保护等内容和因素相互结合的统筹发展目标和进程。在综合
陶瓷生产的低成本时代已经结束,节能环保对于陶瓷发展势在必行,本文介绍了几种节能燃烧技术在陶瓷烧成窑上的开发。
芬兰Confidex公司是一家帮助打印和包装企业开发在供应链中应用的RFID标签的公司,日前发布了全球市场第一只低价格的EPCGen2可重复使用UHF标签Sur-vivo“r生还者”。Confidex
针对干河泵站地下厂房及泵组设备供排水要求,结合工程枢纽布置和外部供排水条件,选择了与常规电站及泵站不同的供排永方式及设备配置方案,可为大型泵站的供排水系统设计提供借鉴
介绍了场地存在液化及软弱土层,属于建筑抗震不利地段,建筑物地基需做防液化处理措施,采用了水泥搅拌桩处理,可供类似工程的设计借鉴和参考。
随着计算机技术不断地发展,计算机处理能力不断地提升,人们对计算机的要求已不局限于简单计算,对计算机的输入输出接口也不局限于现有的方式,人们更加希望用人类自然语音与计
本文结合出土秦简与传世文献对秦南郡属县进行考察,分析认为当阳、邔、鄀在秦代末年降级为乡,并推论北京大学藏秦水陆里程简的断代应在秦始皇三十五年(公元前212年)以后。本