论文部分内容阅读
随着互联网技术的迅猛发展,网络媒体已经成为人们日常生活中不可或缺的一种传播媒介。其中微博作为新兴典型代表之一,以极快的速度影响着社会传播格局。用户可以通过微博随时、随地的更新个人状态和参与讨论自己喜爱或关心的话题,使得微博成为社会热点话题产生的聚集地。对微博进行话题检测,不仅能向用户提供热点话题信息,还能为政府部门在突发事件监测、舆情分析等方面提供强有力的数据支持,因此研究如何从海量的微博信息中检测出热门话题具有十分重要的现实意义。微博文本相对于传统文本来说差距较大,除了大量的省略、指代及主观性的个性化语言之外,还有文本较短、话题离散性强、实时性和互动性等特点。因而,传统的文本话题检测方法不能直接应用于微博,本文在研究过程中结合微博自身特性,提出了一套基于用户兴趣与社区关系的微博话题检测方法。首先,在本文的话题检测算法中引入用户社区的概念,把用户之间的关注关系量化为微博用户关系网,然后对该复杂网络做社区划分、对社区添加兴趣标签,并在社区内部检测话题。针对微博文本的特征稀疏与噪声过大、过杂等问题,本文提出了一种融合词重要度与ε近邻图的微博话题检测方法。该方法以词重要度为入手点,抽取词重要度较大的k个词作为重要词集,计算微博间的相似性,采用图切割的方法将微博分为一个个微博簇,最后根据词重要度求话题主题词。在真实微博数据集上的实验结果显示,该算法能够有效去除微博噪声,快速准确找到社区内热点话题。针对微博话题的热度、突发性以及时间特性等特征,提出了一种融合词重要度与时间窗口的微博话题检测方法。该方法首先按照时间窗口对微博文本进行划分,然后根据词的热度以及突发度得到时间窗口内词的重要度,并抽取重要度较大的k个词作为主题词候选词。其次,以主题词候选词为基础构建词共现网络,并利用社区划分算法对该词共现网络进行社区划分,最后得到话题并依据词重要度进行重要度排行。在真实微博数据集上的实验结果显示,该算法能够快速有效检测出时间窗口内的话题,并对话题重要度、热度以及突发度等指标进行评估,能够对话题重要度随时间变化情况做即时追踪。