论文部分内容阅读
在现如今这个网络信息爆炸的时代,新闻报道的发布变得越来越方便,同时其更新速度也越来越快。当有重大事件发生时,各大网站上将出现大量相关的新闻报道。对于用户来说,如何找到对自己有用的信息,并快速了解整个事件的发展变化过程已经成为了一个亟待解决的问题。基于时间动态发展的事件通常随时间的推移而变化,即包括事件的若干不同发展动态。如果存在一个系统能够自动整理出整个事件的各个发展动态脉络,将有助于用户快速掌握事件的发展过程。本文探讨了从众多描述事件的新闻报道中挖掘出事件的发展动态这一过程,并对描述事件的发展动态的新闻报道进行了摘要提取研究。本文的主要工作包括以下三点。第一,提出两阶段的事件发展动态发现算法。首先运用层次聚类的方法,根据新闻报道的发布时间对新闻报道进行聚类。在层次聚类过程中,阈值大小的设定是一个较为棘手的问题。为了解决阈值设定的问题,在层次聚类过程中设置较小的阈值,从而得到事件的疑似发展动态。但是得到的疑似发展动态存在划分过细的问题。为了解决疑似发展动态划分过细的问题,使用模块度函数作为目标函数,根据文本相似度对于疑似发展动态进行聚类,使得同一个类中文档之间相似度大于类与类之间的相似度。在经过对疑似发展动态进行聚类之后得到的类即为事件发展动态,从而解决阈值选择这个难题。第二,提出基于词-句-标题联合增强的摘要算法(Lex-PageRank算法),对事件的发展动态中的所有文档进行整体摘要提取。该算法不仅考虑了文档中句子和句子中词语的相互影响作用,还考虑了标题对于句子、词语的影响。Lex-PageRank算法让词语、句子相互之间进行投票打分,从而得到句子、词语在文档中重要性和概括性权重。最后再根据句子得分和句子之间是否冗余从文档中抽取重要的句子组成摘要。第三,应用第一、第二中描述的两个算法,改进实现了 TimeLineCurator系统中的时间线生成模块,改进后时间线生成模块的功能为当用户提交描述事件的新闻报道时,模块对事件的每个发展动态进行发现,并对每个发展动态提取摘要,最后将事件的发展经过以视觉时间线的方式展示出来。