论文部分内容阅读
句子打分是基于抽取的自动文摘中的最为关键的问题之一。近年来,基于图模型的句子打分算法成为本领域研究的热点问题。通过将句子连接成一个文本图,然后在图上使用全局的信息不断迭代计算句子重要度,从而获得了较好的性能。本文重点研究基于图模型的多文档自动文摘中的句子打分算法。主要研究这其中最为关键的两个问题:(一)如何在已有图模型中加入“文档”这一维信息,做到真正的多文档自动文摘;(二)针对面向查询的自动文摘,怎样更加充分利用用户的查询信息。本文建立了一个通用的、可用于其他应用的框架,并在多文档自动文摘中检验算法的正确性与有效性。针对问题(一),本文采取了两种思路:(1)隐式和(2)显式添加文档信息到已有的图模型和算法中。对于思路(1),已有的基于图模型中仅考虑了句子-句子之间的关系,而忽略了“文档”这一维以及文档对于句子的影响。本文提出了“文档敏感”图模型,将全局的文档的信息用来影响已有的句子-句子(句子-查询)的关系定义,从而达到文档信息隐式影响句子打分算法。对于思路(2),本文提出了“相互增强链”模型,以[115]提出的“互相增强”(Mutual Reinforcement,或简称为MR)规则为基础:“如果一个词在一些分值很高的句子中出现,那么该词应该得到很高的分值;同样地,如果一个句子包含了高分值的词,也应该得到更高的分值”。Zha的算法是针对单文档的查询无关的自动文摘句子打分算法,针对多文档自动为摘,本文提出将三种不同粒度的文本(文档、句子、词)集成到相互增强模型中,从而形成一个“相互增强链”,达到让文档信息显式地影响句子打分过程。更进一步,本文就“相互增强链”模型中的参数设置进行了深入的理论探讨和实验分析,并在此基础之上提出了“两层相互增强”打分算法,从理论上分析其权重矩阵,得出了该模型和算法的一个重要性质,并从实验上得到了验证。针对问题(二),本文设计了一个查询敏感的相似度来衡量两个文本之间的相似度,处理面向查询的多文本摘要。主要考虑给定一个上下文环境(本文中为用户的查询信息),设计衡量在此上下文环境下的文本(如文档与文档,文档与句子,句子与句子,文档与查询,句子与查询等)之间的相似度。考虑到向量空间模型(Vector Space Model)以及余弦相似度(Cosine Similarity)已成为信息检索、文本处理应用中最为广泛且效果最为显著的模型,本文中提出的查询敏感的相似度可以与此统一起来。考虑到评测数据集的问题,本文主要针对英文语料,但是本文提出的算法和模型也可以供其他的语言语料自动文摘参考或使用。本文的主要贡献在于:1)提出了在目前基于图模型的多文档自动文摘模型和算法中隐式添加文档信息:文档敏感图模型和算法。2)提出了在目前基于图模型的多文档自动文摘模型和算法中显式添加文档信息:“相互增强链”模型和算法。在此基础上进一步从理论和实验上对该模型中的参数设置(尤其是权重矩阵)进行了研究,并提出了“两层相互增强”打分算法,得出了该模型和算法的一个重要性质。3)提出了一种查询敏感的相似度,更好地将用户提供的查询信息放入到句子.打分算法中。本文提出的查询敏感的相似度对于相关研究领域(信息检索、自然语言处理、信息抽取等)亦有参考和借鉴意义。4)针对本文提出的模型、算法,均从理论上做了细致深入的探讨,使得本文提出的模型、算法更具有通用性。5)针对本文提出的模型和算法,在查询无关和面向查询多文档自动文摘中验证了模型和算法的可行性与有效性。