新闻热点发现与追踪子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：allanvte001

【摘要】

：

Internet高速发展使人们越来越依赖于通过互联网获取各种信息，CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7％，看新闻则以20％居第二。新闻信息本身具有数量大、增长

【作者】

：

王俊刚

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

【关键词】

：

新闻热点 Web文档聚类分析倒排索引热点追踪算法度量准则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet高速发展使人们越来越依赖于通过互联网获取各种信息，CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7％，看新闻则以20％居第二。新闻信息本身具有数量大、增长快、时效性强、动态演化等特性，加之在互联网上不同新闻网站间的传播，就使得人们愈加迷失在信息的海洋中。对于“今天发生了哪些大事”、“过去一周热点事件的变化情况”这样的检索需求，用户只能抽象地加以描述，无法定义准确的关键字来通过搜索引擎如Google、百度等进行查询。理想的解决方案是将内容相似的新闻报道组织成新闻主题的形式，自动检测并追踪新闻主题，SIGMOD、VLDB上发表的最新研究成果也包括了对该问题的解决思路。本文设计的新闻热点发现和追踪子系统正是在广泛调研国内外相关研究的基础之上，结合新闻报道的阅读数、评论数等信息，基于Web文档聚类技术，自动发现热点新闻，并追踪一段时间内热点事件的变化趋势。本系统的主要特色有：＞提出了基于先验知识和动态调整文档集合的热点发现算法，提高了新闻热点发现的覆盖率和准确率；＞提出了基于倒排索引热点发现优化策略，极大的提高了系统的运行速度，适应不断增加的海量数据处理需求；＞提出了基于最大权路径的热点追踪算法，快速有效的给出用户指定时间段内的热点变化趋势，为事件探测和监控提供新的手段。＞提出了一种评价网上新闻热点的度量准则，全面有效地衡量了网上新闻的受关注程度，定量地度量了网上新闻热点：本文设计的新闻热点发现于追踪子系统已经在973国家重点基础研究发展规划课题的COMMIX原型系统中实现，并采用COMMIX原型系统收集提取的数据进行实验，实验结果表现出了良好的算法效率和聚类质量。

其他文献

北京大学软件资产库中信任证据管理工具的设计与实现

软件复用是提高软件开发效率和质量的一条现实可行的途径，软件资产库是对可复用软件资产进行管理，对软件资产的复用过程提供支持的基础设施。多年来，软件资产库的研究已经积累了

学位

软件资产库信任证据管理工具关联分析MVC模式AJAX技术

关系数据库CoDB中XML发布/订阅系统的设计与实现

发布/订阅系统使得用户能够对事件(发布消息)保持长期、即时的关注(订阅请求)。随着越来越多的消息使用XML格式进行发布，高效地实现XML发布/订阅系统能够满足诸如新闻订阅、竞

学位

CoDB关系数据库发布/订阅系统XML文档关系存储策略树结构特征系统设计

基于手机领域本体的搜索引擎的研究

目前，信息检索技术正在飞速发展，人们对信息检索系统的检索结果的要求越来越高。传统信息检索方式下，由于信息资源缺少统一的语义描述，用户难以查找到与需求相关的资源，难以实现信

学位

手机领域本体体系构建信息检索查询扩展语义检索搜索引擎

中国大陆互联网AS级拓扑的发现及分析

对互联网在中国大陆部分自治系统一级的拓扑结构进行较为完整和准确的发现是互联网相关研究中的一项基础性工作。这项工作在基于互联网的分布式系统，内容递送网络的服务器选择

学位

中国大陆互联网拓扑结构BGP路由表ASRank计算关系推断算法

分布式数据并行应用内存溢出错误分析与诊断

近年来，大数据以数据量大、数据类型多样、产生与处理速度要求快、价值高的4V特性成为工业界和学术界的研究热点。由于传统软件系统难以在可接受的时间范围内处理大数据，工业界

学位

分布式数据并行应用内存溢出错误分析

学术隐蔽网信息采集引擎的设计与实现

在网络中存在两类信息资源。一类是利用传统的搜索引擎，可通过爬行超链接获取并索引的信息资源，将其称为可见网或表层网。与此对应，网络中还存在另一类信息资源，这类资源对基于链

学位

学术隐蔽网信息采集搜索引擎实时更新检索词集HTML标签数据提取

大规模高指标DAEs求解过程中的关键问题及算法的研究

在工业化社会向信息化社会前进过程中，复杂系统建模与仿真技术与高性能计算技术相结合，成为继理论研究和实验研究后的第三种重要方法。复杂系统研究的主流之一是多领域统一建模

学位

微分代数方程组数值求解结构指标约简算法程序设计

基于AOP的Linux内核运行时状态监测工具的设计与实现

获取操作系统运行时的实时信息，监测并记录系统运行时的状态是十分重要的。一方面，这些信息是系统性能监测和调优(tuning)、内核剖面(profiling)、应用程序执行追踪(tracing)以

学位

面向侧面程序设计侧面编排贯穿特性Linux内核状态监测

语义Web服务匹配研究

在开发大规模分布式应用的过程中，如何有效地集成和共享已有的软件和本地计算，提高系统的开发效率，降低系统的开发成本一直是分布式系统研究和关注的重点问题。为了解决这一问题

学位

语义Web服务服务匹配服务发现服务描述语言

个体税收管理系统的分析与设计

我国税务机关的个体税收征管，传统上是由税务人员主观评定纳税额。存在人为参与因素多、规范不细，不利于具体问题具体分析，规范的变化缓慢，不能适应市场经济发展的需要，严重制约着

学位

个体税收统一建模语言三层架构税收管理

新闻热点发现与追踪子系统的设计与实现

与本文相关的学术论文