论文部分内容阅读
Internet高速发展使人们越来越依赖于通过互联网获取各种信息,CNNIC的最新报告显示互联网第一入口是即时通信的比例是39.7%,看新闻则以20%居第二。新闻信息本身具有数量大、增长快、时效性强、动态演化等特性,加之在互联网上不同新闻网站间的传播,就使得人们愈加迷失在信息的海洋中。对于“今天发生了哪些大事”、“过去一周热点事件的变化情况”这样的检索需求,用户只能抽象地加以描述,无法定义准确的关键字来通过搜索引擎如Google、百度等进行查询。
理想的解决方案是将内容相似的新闻报道组织成新闻主题的形式,自动检测并追踪新闻主题,SIGMOD、VLDB上发表的最新研究成果也包括了对该问题的解决思路。本文设计的新闻热点发现和追踪子系统正是在广泛调研国内外相关研究的基础之上,结合新闻报道的阅读数、评论数等信息,基于Web文档聚类技术,自动发现热点新闻,并追踪一段时间内热点事件的变化趋势。本系统的主要特色有:
>提出了基于先验知识和动态调整文档集合的热点发现算法,提高了新闻热点发现的覆盖率和准确率;
>提出了基于倒排索引热点发现优化策略,极大的提高了系统的运行速度,适应不断增加的海量数据处理需求;
>提出了基于最大权路径的热点追踪算法,快速有效的给出用户指定时间段内的热点变化趋势,为事件探测和监控提供新的手段。
>提出了一种评价网上新闻热点的度量准则,全面有效地衡量了网上新闻的受关注程度,定量地度量了网上新闻热点:
本文设计的新闻热点发现于追踪子系统已经在973国家重点基础研究发展规划课题的COMMIX原型系统中实现,并采用COMMIX原型系统收集提取的数据进行实验,实验结果表现出了良好的算法效率和聚类质量。