论文部分内容阅读
热点话题是在具体时间段内发生的,能够引起人们广泛关注的不同领域中的话题。微博热点话题是以微博为应用平台的热点话题。微博是以用户关系为基础进行信息分享和传播的平台,具有很强的互动性。其自身特征使微博用户拥有信息接收者和发起者的双重身份,这一身份特征促使微博上的消息在网络上迅速、及时地传播,某些突发、热点事件的话题便常常会在这时表现出来。热点话题的发现不仅能够帮助人们快速了解某段时间的社会热点,更有助于管理人员及时地发现社会舆情,并进行正确引导。微博具有开放性和互动性,每天都有海量信息涌现,且具有文本内容短小、信息含量少、用词不规范等特点,使得运用传统热点话题提取方法对微博平台上的热点话题进行发现时力不从心。鉴于此,本文所做工作主要包括以下方面:(一)根据微博信息传播特征,对传统的容错粗糙集模型进行扩展,提出了基于微博特征扩展的容错粗糙集模型。传统的容错粗糙集模型是基于一些属性的协同出现构造某个概念的上近似和下近似集,实现属性的约简或扩张,由于容错类的建立过于宽松,会导致准确度和有效性很低,不适宜直接应用于本文环境。因此,结合微博具有的转发、评论等特征,对传统容错粗糙集模型进行改进。(二)采集新浪微博消息作为语料,分析语料自身特点,并将其表示成基于微博特征的容错粗糙集文本表示模型。本文在分析研究微博消息语料自身特征时发现直接运用已有的文本表示模型,存在文本表示稀疏性问题,基于此,本文使用基于微博特征扩展的容错粗糙集模型,构建文档集表示模型,并根据提出的文本表示模型扩展特征项权重的计算方法。(三)提出一种增量式凝聚层次K-means聚类算法,进行微博热点话题发现,有效克服K-means算法初始聚类中心选取较为敏感及层次聚类算法复杂度较高的问题,对话题热度度量公式进行改进。