论文部分内容阅读
网页作为人类知识的一个重要载体,像照片一样记录了人类的历史,是人类的一份珍贵史料。同时,网页如同书籍、报纸一样,其生存周期是有限的。因此,就有许多有机构致力于有效的收集、存储历史网页,譬如北京大学网络实验室研发的WebInfoMall系统收集大量以中文网页为主的历史网页。历史网页特别是历史新闻网页的妥善保存为研究历史新闻事件提供了丰富的素材。历史新闻信息具有数量大、主题相关、动态演化等特性。现实生活中,人们往往需要获得新闻主题信息,而尽量避免涉足大量的新闻报道,并且希望自己可以了解新闻事件的来龙去脉。目前的历史新闻信息管理模式主要是历史网页回放和检索,没有充分利用新闻信息的主题相关、和动态演化特点,而将新闻信息当作普通的文本内容来进行管理,因此满足不了上述需求。本文提出的历史事件检测技术能将历史新闻报道按照新闻事件自动组织起来形成新闻事件专题,将新闻事件表示成一个新闻话题的链接图,形成新闻事件的演化轨迹,帮助用户理解历史事件信息。因此,历史事件检测技术的应用将能有效地管理和组织历史新闻信息,满足人们对历史新闻信息的特殊需求。 本文首先分析了相关新闻报道的时间邻近性和新闻事件的动态演化特性,结合话题检测与跟踪技术以及文本聚类技术,设计了一个基于话题链接的历史事件检测方法。该方法按基于新闻发表时间的分治策略,将整个事件检测问题分成三个阶段来解决,提供了一种对大规模历史新闻报道集进行事件检测的效率瓶颈的解决方案;通过话题链接与话题链接图分割,充分挖掘新闻事件的动态演化特性,保证可算法的精度和召回率;在话题关联检测的过程中,挖掘新闻正文时间对关联检测的作用,克服了新闻发表时间与新闻所报道事件的发生时间不一致的问题‘最终获得了历史事件的链接图表示,克服了传统话题检测与跟踪技术或者文本聚类技术不能表示事件的发展演化过程的缺点。本文针对现有历史新闻信息管理模式的缺点,提出了一种基于新闻事件专题的历史新闻信息管理模型。该模型利用历史新闻时间检测技术从历史新闻报道集中检测出新闻事件,并将新闻事件表示成话题链接图的形式,使得用户可以像浏览网页一样浏览新闻话题。以历史新闻信息管理模式为背景,本文设计并实现了一个历史新闻事件检测原型系统。