基于话题链接的历史新闻事件检测技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：yufan123456789

【摘要】

：

网页作为人类知识的一个重要载体,像照片一样记录了人类的历史,是人类的一份珍贵史料。同时,网页如同书籍、报纸一样,其生存周期是有限的。因此,就有许多有机构致力于有效的

【作者】

：

曾印

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

历史新闻数据挖掘话题链接图程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页作为人类知识的一个重要载体,像照片一样记录了人类的历史,是人类的一份珍贵史料。同时,网页如同书籍、报纸一样,其生存周期是有限的。因此,就有许多有机构致力于有效的收集、存储历史网页,譬如北京大学网络实验室研发的WebInfoMall系统收集大量以中文网页为主的历史网页。历史网页特别是历史新闻网页的妥善保存为研究历史新闻事件提供了丰富的素材。历史新闻信息具有数量大、主题相关、动态演化等特性。现实生活中,人们往往需要获得新闻主题信息,而尽量避免涉足大量的新闻报道,并且希望自己可以了解新闻事件的来龙去脉。目前的历史新闻信息管理模式主要是历史网页回放和检索,没有充分利用新闻信息的主题相关、和动态演化特点,而将新闻信息当作普通的文本内容来进行管理,因此满足不了上述需求。本文提出的历史事件检测技术能将历史新闻报道按照新闻事件自动组织起来形成新闻事件专题,将新闻事件表示成一个新闻话题的链接图,形成新闻事件的演化轨迹,帮助用户理解历史事件信息。因此,历史事件检测技术的应用将能有效地管理和组织历史新闻信息,满足人们对历史新闻信息的特殊需求。　　本文首先分析了相关新闻报道的时间邻近性和新闻事件的动态演化特性,结合话题检测与跟踪技术以及文本聚类技术,设计了一个基于话题链接的历史事件检测方法。该方法按基于新闻发表时间的分治策略,将整个事件检测问题分成三个阶段来解决,提供了一种对大规模历史新闻报道集进行事件检测的效率瓶颈的解决方案；通过话题链接与话题链接图分割,充分挖掘新闻事件的动态演化特性,保证可算法的精度和召回率；在话题关联检测的过程中,挖掘新闻正文时间对关联检测的作用,克服了新闻发表时间与新闻所报道事件的发生时间不一致的问题‘最终获得了历史事件的链接图表示,克服了传统话题检测与跟踪技术或者文本聚类技术不能表示事件的发展演化过程的缺点。本文针对现有历史新闻信息管理模式的缺点,提出了一种基于新闻事件专题的历史新闻信息管理模型。该模型利用历史新闻时间检测技术从历史新闻报道集中检测出新闻事件,并将新闻事件表示成话题链接图的形式,使得用户可以像浏览网页一样浏览新闻话题。以历史新闻信息管理模式为背景,本文设计并实现了一个历史新闻事件检测原型系统。

其他文献

印前处理中含噪多孔洞扫描图的复原技术研究

在印刷行业中,图像由于其直观性和广泛适用性,对印刷品的质量起着至关重要的作用,对于承印物为织物的纺织印刷业中来说就更是如此。因此,印前图像处理便成了印刷过程中不可或

学位

图像印刷孔洞定位图像处理计算机技术

基于概要树的XML结构化查询模型的设计与实现

随着XML数据被广泛应用于互联网服务、信息集成等各个领域,针对XML数据的结构化查询,尤其是作为其核心操作的多分支查询,已经在研究领域成为一个热点话题。虽然在最近几年,为

学位

XML数据数据挖掘语义分析程序语言

离散网格形变中的粒子系统应用

计算机辅助设计(CAD、Computer Aided Design)在工业界已经得到广泛应用,极大促进了汽车、航空、航天、造船、建筑等行业的发展。离散曲面形变是CAD领域的研究热点之一,但是

学位

计算机辅助设计离散曲面形变网格形变类弹簧法撒点粒子

任务群计算中并行速度与资源开销的综合优化

任务群计算(Many-Task Computing，MTC)是广泛应用于科学计算领域的一种大规模松耦合任务并行计算模式，目的是在较短的时间内完成大量资源需求相同的可独立调度任务。这种模式下

学位

任务群计算并行速度离散事件模拟器资源选择策略

XML模式匹配:整体连接算法TurboStack

经过多年的研究与应用实践,基于relation数据库引擎扩展XML管理功能已成为共识。目前,各大商用数据管理系统DB2,ORACLE,SQL SERVER以及开源数据管理系统(MonetDB,GALAXY,xlnd

学位

XML数据数据挖掘语义分析程序语言

一种基于统计机器学习的工尺谱翻译方法

工尺谱作为一种中国古代乐谱，常用于昆剧等中国传统音乐。工尺谱拥有完整的音调、音高标记，但是节奏标记不完备，一个节拍内音符的时值划分不明确。因此，工尺谱一般都以“口传心授

学位

工尺谱分类模型共现概率局部一致性统计机器学习

基于微博数据与词汇关系的观点检索

观点检索任务需要为每个用户查询返回一个文档列表,要求列表中的每篇文档表达了对当前查询主题的某种观点,并依据它们对查询主题的情感程度进行排序。目前,在微博数据(比如推

学位

信息检索数据挖掘语义分析程序语言

主观试题自动阅卷机制的研究

学位

面向人口信息系统的云计算中隐私保护技术研究

随着人口信息系统应用范围的不断扩大,数据将急剧增长,简单的设施的扩容虽然能在一定时期满足人口信息系统的需求但不是长久之计。云计算的便利、经济、高可扩展性等优势吸引

学位

人口信息系统云计算隐私保护数据分片

大规模在线社会网络用户行为分析及反垃圾账号策略研究与实现

Sybil账号是由恶意攻击者创建的,用来不公平的获取大量互联网资源与能力的虚假账号。长久以来,人们注意到sybil账号出现在各种互联网社区中,例如文件共享系统。但由于缺乏进

学位

计算机网络虚假账号网络管理程序设计

基于话题链接的历史新闻事件检测技术研究

与本文相关的学术论文