基于话题链接的历史新闻事件检测技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:yufan123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页作为人类知识的一个重要载体,像照片一样记录了人类的历史,是人类的一份珍贵史料。同时,网页如同书籍、报纸一样,其生存周期是有限的。因此,就有许多有机构致力于有效的收集、存储历史网页,譬如北京大学网络实验室研发的WebInfoMall系统收集大量以中文网页为主的历史网页。历史网页特别是历史新闻网页的妥善保存为研究历史新闻事件提供了丰富的素材。历史新闻信息具有数量大、主题相关、动态演化等特性。现实生活中,人们往往需要获得新闻主题信息,而尽量避免涉足大量的新闻报道,并且希望自己可以了解新闻事件的来龙去脉。目前的历史新闻信息管理模式主要是历史网页回放和检索,没有充分利用新闻信息的主题相关、和动态演化特点,而将新闻信息当作普通的文本内容来进行管理,因此满足不了上述需求。本文提出的历史事件检测技术能将历史新闻报道按照新闻事件自动组织起来形成新闻事件专题,将新闻事件表示成一个新闻话题的链接图,形成新闻事件的演化轨迹,帮助用户理解历史事件信息。因此,历史事件检测技术的应用将能有效地管理和组织历史新闻信息,满足人们对历史新闻信息的特殊需求。  本文首先分析了相关新闻报道的时间邻近性和新闻事件的动态演化特性,结合话题检测与跟踪技术以及文本聚类技术,设计了一个基于话题链接的历史事件检测方法。该方法按基于新闻发表时间的分治策略,将整个事件检测问题分成三个阶段来解决,提供了一种对大规模历史新闻报道集进行事件检测的效率瓶颈的解决方案;通过话题链接与话题链接图分割,充分挖掘新闻事件的动态演化特性,保证可算法的精度和召回率;在话题关联检测的过程中,挖掘新闻正文时间对关联检测的作用,克服了新闻发表时间与新闻所报道事件的发生时间不一致的问题‘最终获得了历史事件的链接图表示,克服了传统话题检测与跟踪技术或者文本聚类技术不能表示事件的发展演化过程的缺点。本文针对现有历史新闻信息管理模式的缺点,提出了一种基于新闻事件专题的历史新闻信息管理模型。该模型利用历史新闻时间检测技术从历史新闻报道集中检测出新闻事件,并将新闻事件表示成话题链接图的形式,使得用户可以像浏览网页一样浏览新闻话题。以历史新闻信息管理模式为背景,本文设计并实现了一个历史新闻事件检测原型系统。
其他文献
在印刷行业中,图像由于其直观性和广泛适用性,对印刷品的质量起着至关重要的作用,对于承印物为织物的纺织印刷业中来说就更是如此。因此,印前图像处理便成了印刷过程中不可或
随着XML数据被广泛应用于互联网服务、信息集成等各个领域,针对XML数据的结构化查询,尤其是作为其核心操作的多分支查询,已经在研究领域成为一个热点话题。虽然在最近几年,为
计算机辅助设计(CAD、Computer Aided Design)在工业界已经得到广泛应用,极大促进了汽车、航空、航天、造船、建筑等行业的发展。离散曲面形变是CAD领域的研究热点之一,但是
任务群计算(Many-Task Computing,MTC)是广泛应用于科学计算领域的一种大规模松耦合任务并行计算模式,目的是在较短的时间内完成大量资源需求相同的可独立调度任务。这种模式下
经过多年的研究与应用实践,基于relation数据库引擎扩展XML管理功能已成为共识。目前,各大商用数据管理系统DB2,ORACLE,SQL SERVER以及开源数据管理系统(MonetDB,GALAXY,xlnd
工尺谱作为一种中国古代乐谱,常用于昆剧等中国传统音乐。工尺谱拥有完整的音调、音高标记,但是节奏标记不完备,一个节拍内音符的时值划分不明确。因此,工尺谱一般都以“口传心授
观点检索任务需要为每个用户查询返回一个文档列表,要求列表中的每篇文档表达了对当前查询主题的某种观点,并依据它们对查询主题的情感程度进行排序。目前,在微博数据(比如推
学位
随着人口信息系统应用范围的不断扩大,数据将急剧增长,简单的设施的扩容虽然能在一定时期满足人口信息系统的需求但不是长久之计。云计算的便利、经济、高可扩展性等优势吸引
Sybil账号是由恶意攻击者创建的,用来不公平的获取大量互联网资源与能力的虚假账号。长久以来,人们注意到sybil账号出现在各种互联网社区中,例如文件共享系统。但由于缺乏进