论文部分内容阅读
互联网的迅速发展,使得大量的信息洪流以前所未有的方式冲击着社会的政治、经济和文化,改变着人们的生活方式。面对这浩如烟海的信息,人们越发容易陷入一种资讯焦虑的困境之中。而且,随着时代和科技的进步,互联网上的信息媒体向着更加多元和开放的方向发展。如何有效的组织、呈现互联网上的信息是自然语言处理和信息检索领域面临的一大挑战。自动文摘技术,正是面向这一需求应运而生,其核心思想就在于通过文本压缩技术,从大量文档集合中抽取最核心最重要最能反映文档集合主要内容的文字来组成摘要。本文以信息检索为出发点,以信息压缩呈现为目标,研究新闻上的多文档自动文摘技术。 事件发展情节摘要是自动文摘领域的新方向,与传统静态多文档自动文摘不同的是,其在处理事件相关的文本内容的同时,综合考虑时间信息,基于时间轴曲线生成描述事件发展情节的文本摘要。当前,互联网的实时性在新闻事件报道和传播上发挥着重要的作用,用户主要通过互联网实现对事件的回顾和关注,了解事件的发展过程。然而,搜索引擎对事件主题的反馈结果并不是很理想,例如,当用户输入“2008年北京奥运会”时,百度给出的检索结果超过三千万条,而谷歌给出的检索结果也超过了一千八百多万条,检索结果信息量之大,令人侧目。传统的多文档自动文摘技术能更好的解决这一问题。但是,它只能为用户呈现事件相关的主要信息,而无法展现事件发展的阶段信息,并且,当用户需要了解特定时间段的事件发展状态时,多文档自动文摘技术是不能满足这一需求的。因此,本文基于多文档自动文摘技术,引入时序信息,研究如何更好的为一事件主题生成相应的发展情节摘要。 本文引入事件语义信息、结构信息以及时序信息,提出子事件与主体事件的概念,并基于子事件与主体事件的关系,将子事件划分为局部子事件和全局子事件。基于上述理论,本文提出并设计了一种多子事件混合LDA模型。该模型是标准LDA的扩展,它不仅能从众多文档集合中提取出多个不同类型的子事件,并同时能将相应句子划分到各个子事件对应的句子集合中。此外,基于上述得到的不同类型的子事件,结合多文档自动文摘领域对摘要的相关性、信息量、多样性、一致性等要求,本文设计了一个pair-wise的最优化框架,用以从各个子事件句子集合中抽取最优子集,生成全局最优的事件发展情节摘要。 为了验证本文提出的算法的性能,本文选取了5个比较典型的话题,从五个主流的新闻上共抓取12000多条相关新闻,对算法在该数据集上的性能进行了充分的实验。结果表明,本文设计的算法比当前几种代表性的摘要系统生成更高质量的文摘。