论文部分内容阅读
查询相关的多文档摘要技术依据给定的查询,将多篇相关文档的内容浓缩为一个简洁、流畅、并能反映主题内容的摘要。该技术能够大大提高人们获取信息的效率,近年来一直是自然语言处理领域的研究热点之一。基于句子抽取的方法是当前主流的摘要方法,其核心在于如何对句子打分。在本文中,我们对基于图的句子打分算法进行了系统而深入的研究,我们的工作包括:
(一)深入分析和解释了一些经典的图排序摘要算法。给出了类PageRank摘要算法LexRank非常直观的“投票”解释。揭示了类PageRank摘要算法和类HITS摘要算法之间存在的紧密联系。我们还发现,引入除了句子-句子相似度这种简单二元关系之外之外更多的信息有助于生成更好的摘要。此外,我们还提出了一种适用于查询相关摘要的类HITS摘要算法。
(二)提出了一种基于图的半指导学习摘要算法。基于图的半指导学习的流形假设能很好地与摘要任务吻合。由此我们可以把句子打分转换为流形学习问题。我们对该算法作了严格的理论分析,证明了其收敛性,并给出了该算法的得分传播以及随机游走模型解释。
(三)提出了基于超图的文档表示模型和半指导学习摘要算法。受到“引入句子-句子相似度之外更多的信息有助于生成更好的摘要”这一结论启发。我们提出用超图表示文档并给出了一种基于超图的半指导学习摘要算法。同样的我们证明了该算法的收敛性并给出了合理的得分传播解释。
通过上述研究,我们构建了一个查询相关的文档摘要系统。为了获取高质量的摘要我们还对句子做了前后处理等一系列操作,包括句子精简,去除冗余信息,句子重排序等。最终我们构建出一个基于图/超图的半指导学习句子打分的自动摘要系统。我们在DUC两年(DUC2006和DUC2007)的语料上进行了实验,在这两组语料上我们的摘要系统基本上都达到了最好的水平。