新闻热点发现与追踪子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:allanvte001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet高速发展使人们越来越依赖于通过互联网获取各种信息,CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7%,看新闻则以20%居第二。新闻信息本身具有数量大、增长快、时效性强、动态演化等特性,加之在互联网上不同新闻网站间的传播,就使得人们愈加迷失在信息的海洋中。对于“今天发生了哪些大事”、“过去一周热点事件的变化情况”这样的检索需求,用户只能抽象地加以描述,无法定义准确的关键字来通过搜索引擎如Google、百度等进行查询。 理想的解决方案是将内容相似的新闻报道组织成新闻主题的形式,自动检测并追踪新闻主题,SIGMOD、VLDB上发表的最新研究成果也包括了对该问题的解决思路。本文设计的新闻热点发现和追踪子系统正是在广泛调研国内外相关研究的基础之上,结合新闻报道的阅读数、评论数等信息,基于Web文档聚类技术,自动发现热点新闻,并追踪一段时间内热点事件的变化趋势。本系统的主要特色有: >提出了基于先验知识和动态调整文档集合的热点发现算法,提高了新闻热点发现的覆盖率和准确率; >提出了基于倒排索引热点发现优化策略,极大的提高了系统的运行速度,适应不断增加的海量数据处理需求; >提出了基于最大权路径的热点追踪算法,快速有效的给出用户指定时间段内的热点变化趋势,为事件探测和监控提供新的手段。 >提出了一种评价网上新闻热点的度量准则,全面有效地衡量了网上新闻的受关注程度,定量地度量了网上新闻热点: 本文设计的新闻热点发现于追踪子系统已经在973国家重点基础研究发展规划课题的COMMIX原型系统中实现,并采用COMMIX原型系统收集提取的数据进行实验,实验结果表现出了良好的算法效率和聚类质量。
其他文献
软件复用是提高软件开发效率和质量的一条现实可行的途径,软件资产库是对可复用软件资产进行管理,对软件资产的复用过程提供支持的基础设施。多年来,软件资产库的研究已经积累了
发布/订阅系统使得用户能够对事件(发布消息)保持长期、即时的关注(订阅请求)。随着越来越多的消息使用XML格式进行发布,高效地实现XML发布/订阅系统能够满足诸如新闻订阅、竞
目前,信息检索技术正在飞速发展,人们对信息检索系统的检索结果的要求越来越高。传统信息检索方式下,由于信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,难以实现信
对互联网在中国大陆部分自治系统一级的拓扑结构进行较为完整和准确的发现是互联网相关研究中的一项基础性工作。这项工作在基于互联网的分布式系统,内容递送网络的服务器选择
近年来,大数据以数据量大、数据类型多样、产生与处理速度要求快、价值高的4V特性成为工业界和学术界的研究热点。由于传统软件系统难以在可接受的时间范围内处理大数据,工业界
在网络中存在两类信息资源。一类是利用传统的搜索引擎,可通过爬行超链接获取并索引的信息资源,将其称为可见网或表层网。与此对应,网络中还存在另一类信息资源,这类资源对基于链
在工业化社会向信息化社会前进过程中,复杂系统建模与仿真技术与高性能计算技术相结合,成为继理论研究和实验研究后的第三种重要方法。复杂系统研究的主流之一是多领域统一建模
获取操作系统运行时的实时信息,监测并记录系统运行时的状态是十分重要的。一方面,这些信息是系统性能监测和调优(tuning)、内核剖面(profiling)、应用程序执行追踪(tracing)以
在开发大规模分布式应用的过程中,如何有效地集成和共享已有的软件和本地计算,提高系统的开发效率,降低系统的开发成本一直是分布式系统研究和关注的重点问题。为了解决这一问题
我国税务机关的个体税收征管,传统上是由税务人员主观评定纳税额。存在人为参与因素多、规范不细,不利于具体问题具体分析,规范的变化缓慢,不能适应市场经济发展的需要,严重制约着