论文部分内容阅读
微型博客是一种日益兴起的新型社交网络,在微博中,用户之间不仅可以建立好友关系,还可以进行学术交流、通过签到分享自己在不同地点所参与的事件以及对热点问题进行关注和讨论。它具有发布信息快,信息传播速度快的特点。但是因为用户众多,数据量过大,且数据为动态传输,使用传统的静态数据分析方法对其进行分析就不再适合,而需要用到流聚类的方法。本文中,我们把流聚类分为两个层次,其中在线的微聚类层用于暂时性地处理和存储摘要统计信息,由于该组件仅针对摘要统计信息进行处理,从而能够处理流速和流量较大的数据流;另一层是离线的宏聚类组件,针对这一层,我们可以根据需要调整输入的参数(如类或时间段的个数)来对在线微聚类层所存储的摘要统计信息进行聚类,以便能够以不同角度和方式对数据流的聚类结果进行分析,从而提高了聚类结果的精确性和可理解性。之后,本文针对微博数据的特点引入一个用户影响力因子,将之作为微博的权值,从而得到针对微博流聚类更加精确的结果。本文还使用了基于PCA的文本降维技术对目标数据集进行了降维处理,在取得相近结果的基础上,提高了算法的效率。