论文部分内容阅读
随着计算机和网络技术的蓬勃发展,社会化媒体越来越受到广大网民的日益关注。近年来,微博作为一种新型的社会化媒体,已经得到了人们的广泛关注,许多国内外的重大事件都是通过它在第一时间传播给人们。海量的微博短文本数据中蕴含着大量有价值的热点话题,自动检测这些话题可以更好为人们提供更多全方位的动态消息。然而,传统的话题检测算法已经无法满足这种新型社会化媒体的短文本数据。针对此问题,本论文主要研究了一种基于多视图技术的微博话题检测方法,该方法充分考虑了微博文档之间的语义关系和社会化关系,具有较好的话题检测效果。论文的主要工作和创新点如下。首先,本文提出了一种采用微博间语义关系和社会关系的多视图微博话题检测方法。在表征微博文之间关系的时候,本文不但利用了传统文本语义关系,也利用了博文之间社会关系,从而弥补了语义关系的不足。博文间的语义关系和社会关系可以构成一个多视图,然后我们采用基于谱聚类的多视图聚类算法对微博博文进行聚类,并从话题簇中提取出具有代表性的关键词。文章通过实验验证了多视图聚类比任意一种单视图聚类有着更好的聚类效果。其次,为了更准确地表征博文间语义关系,本文提出了一种新的基于后缀树的文档相似度度量算法。在该方法中,首先通过后缀树检测出文档间的共同短语,由于短语比单个词的随机组合有着更丰富的语义信息,然后对短语中的词进行额外加权,因而能更准确的度量文档之间的相似度。实验表明通过对短语进行加权,可以更好的度量博文之间的语义关系。再次,在表征微博博文间社会化关系时,我们提出了采用微博中的社会化关系符号如#Mention、@评论等来衡量它们之间的关系。实验表明它是一种非常有效的衡量博文间关系的方式。最后,设计和实现了一个基于多视图的微博话题检测软件系统。本系统为采用多视图技术进行话题检测提供了一个工具,同时也为后续研究和算法实现提供了一个基础平台。