论文部分内容阅读
随着互联网技术的高速发展,人们更加倾向于从网络上获取所需的新闻热点信息。由于网络数据具有信息来源广、传播速度快、内容杂乱无章等特性,想要从海量的网络信息流中发现自己感兴趣的话题具有一定的难度,因此需要寻找一种能够自动地对网络数据进行处理并发现热点话题的方法。网络热点话题发现正是利用网络爬虫、文本预处理、话题发现及热点话题识别等技术,自动地抓取网络文档并发现大众感兴趣的热点话题,因此逐渐成为研究的热点内容。通过对话题发现算法的研究,设计一种基于密度聚类策略与Single-pass策略相结合的双层文本聚类模型,并利用该模型进行网络话题发现。针对网络数据巨大的特性,先利用DBSCAN算法对单次爬取的网络数据进行小规模聚类形成话题微类,再利用Single-pass策略对微类执行增量聚类形成话题类。针对双层模型中采用的Single-pass策略计算速度慢的缺点,将该算法进行了改进。由于传统的Single-pass策略需要将文档与话题类中包含的全部文档执行相似度计算,效率较低。结合质心的概念,将微类和话题类都表示成质心向量的形式,这样仅需比较微类跟话题类质心向量的相似程度,降低了计算的复杂度。在网络热点话题识别部分,设计一种话题热度度量模型,该模型结合媒体和用户两方面对话题的关注程度,将影响话题热度的相关因素量化,从而得出热度量化公式。利用公式测量话题的热度并依据测量的热度值将话题排名。在研究相关技术的基础上,利用网络爬虫、话题发现以及热点话题识别技术设计并实现了一个网络热点话题发现系统。通过将系统采用的双层模型与传统的Single-pass策略对比,验证了双层模型方案的可行性。将系统对网络数据进行处理,并将处理结果与各典型网站提供的热点话题进行对比,验证了系统的有效性。