论文部分内容阅读
随着互联网信息的爆炸式增长,以微博为主导的一批在线社交网络蓬勃发展。越来越多的人以群体的形式在微博网络上进行聚集,且规模随着时间推移逐渐壮大。微博群体的诞生一方面有利于社会正能量传递,另一方面也会导致社会负面情绪的传播。因此对于微博群体的发现与控制刻不容缓。 面对微博复杂网络环境以及群体发现任务需求,本文以新浪微博数据为例,对微博群体发现任务中群体特征表示以及群体聚类算法构建两个关键技术展开深入研究。本文的研究内容和主要贡献如下: 1.提出一种基于node2vec群体特征融合表示方法 针对微博的复杂网络环境,本文使用微博用户静态属性特征与用户关系网络动态特征相结合的思路,对传统的群体特征抽取方法进行优化。结合微博群体中各个体的自身属性,并附以微博用户的关注与被关注网络,将微博网络信息进行特征化表示,使用node2vec算法对微博用户关系网络进行编码及特征化。实验证明,所提出的基于node2vec的群体特征融合表示方法相对于传统的群体特征表示方法具有更优的效果,且运算时间大幅缩短。 2.提出一种基于半监督聚类的群体发现算法 针对本文所面对的多源点环境,本文对传统聚类算法进行优化,融入带标签源节点信息,设计了一种基于半监督聚类的群体发现算法。在算法模型中,选用DBSCAN为基础聚类模型进行优化。使用源节点的特征向量信息,优化聚类中的距离函数,并使用带标签的源节点,通过半监督方法优化聚类过程。实验证明,所提出的基于半监督聚类的群体发现算法与传统群体发现聚类算法相比,NMI大幅提升。 3.构建了一套分布式微博群体发现系统 基于以上两点关键技术,本文以实际微博消息数据、微博用户数据、微博用户关系数据为数据源,在数据源上构建了一套异步架构下的群体发现系统。该系统前端采用Html5+Rest接口模式,后端采用Spark平台支撑,数据存储采用Mysql+Mongo+Hive分布式与非分布式数据库并存机制。系统运行高效,用户体验极佳。