论文部分内容阅读
自web2.0时代的到来,以及信息技术的快速发展,在线社交网络服务正经历着巨大的变化。社交网络平台纷纷涌现并蓬勃发展,社交网络分析逐渐成为近年来的研究热点,其中网络社区发现问题在学术界得到广泛的关注。社区发现有助于深入理解复杂网络的结构特征,挖掘数据所蕴含的潜在规律,这有助于优化个性化推荐、意见领袖识别等面向用户的服务。微博凭借其低门槛性、平台开放性、多终端性等吸引了众多用户,通过虚拟网络平台影响着人们的日常生活。本文采集了用户发布的微博、用户属性信息及其关注列表与粉丝列表为数据集,旨在挖掘微博中的社区结构。然而,庞大的用户数目,丰富多维的信息,以及复杂的关系网络,使得微博成为一个巨大的数据海洋,造成数据过载,用户难以去粗取精,找到自己感兴趣的信息或用户。目前微博社区发现面临着两个主要问题,第一,如何有效结合内容和关系网协同进行社区发现;第二,如何对大规模、高维且稀疏的数据进行建模,并将模型控制在较低的算法复杂度。本文基于高阶张量分解提出一种社区挖掘的新方法。以下是本文主要的研究工作和成果。一方面,对用户发布的微博进行预处理,关键词抽取,结合词向量进行关键词扩展,基于非负矩阵分解实现关键词降维,从而完成用户兴趣建模;另一方面,针对由用户的“关注”行为所构成的关系网络,定义用户影响力等。构建基于内容的非负矩阵分解模型C-NMF。结合用户影响力与特征词提出加权的非负矩阵分解模型WNMF。分别采用交替最小二乘和随机梯度下降两种算法实现非负矩阵的分解,获取社区结构,创新性得建立基于非负张量分解的社区发现模型NTF,分别采用交替最小二乘和随机梯度下降完成非负张量分解,其中基于高阶奇异值分解对因子矩阵与核心张量的初始化加快了算法的收敛;为了防止过拟合引入正则项,构建RNTF模型,利用数据的稀疏性特征对算法进行优化,重点提出改进的随机梯度下降算法ISGD,这是本文的创另一创新之处。针对本文的数据集,分析各个算法得出:对于相同的目标函数,ALS算法效率一般都略优于SGD。而ISGD算法充分利用数据的稀疏性大大提高了算法的收敛速率,其算法效率远远优于ALS和SGD。另外,学习速率和正则化参数的选择对算法的收敛性与收敛速率有着直接的影响。根据重叠社区模块度和社区主题相似度指标来衡量社区效果。本文提出的非负张量分解模型RNTF能够保留数据的内在结构,有效挖掘数据隐含特征。相比于矩阵模型,张量模型下的社区结构更加明显,社区内部主题相似度更高,社区效果更优。