论文部分内容阅读
随着信息技术的发展,越来越多的人利用互联网来发布和获取信息,互联网变成了人们生活中不可缺少的一部分。互联网信息的增加,使得获取和管理这些信息变得越来越困难了,导致信息超载。为了更好的获取和管理信息,人们提出了话题检测相关技术,其主要目的是研究在多媒体和跨语言信息流中自动检测出新话题的方法。而由于微博具有原创性、时效性、随意性,这使得传统的话题检测算法在微博话题讨论下处理效果并不理想。Latent Dirichlet Allocation(LDA)作为一种非监督的话题模型,在微博环境下,由于微博的时效性和突发性,LDA需要预先确定话题个数的缺点使得该模型在微博下难以适用。这一点使得LDA模型难以拟合微博的真实话题分布。另一方面,基于层次的聚类算法不需要事先确定类别个数,以及互信息作为一种文本特征选取方法具有良好的区分度。因此,在本论文中,我们提出了一种LDA模型与层次聚类算法相结合的话题检测算法。该算法解决了LDA模型需要预先设定热点话题个数的缺点,能动态根据各个话题词的相关性生成话题。为了能根据热点话题检索出相关的微博,我们使用了一种基于热点话题的词集合和微博特征的打分算法。该算法能有效地筛选出相关微博。基于以上的算法,我们构建了一个微博客的话题检测系统。此系统能够实时地检测每日热点话题,并且根据话题相关热点词以及微博的特征实现了根据话题的相关微博检索。此系统取得了良好的效果。