论文部分内容阅读
随着信息技术的快速发展和智能硬件设备的普及,人们已经进入到了社会信息化的时代,在线社会网络的出现改变了人们的日常生活和娱乐方式,各种各样的社会网络工具层出不穷,如微博、微信、知乎等,使人与人之间进行沟通交流更加方便、快捷,拉近了人与人之间的距离,促进了在线社会网络的快速发展。在线社会网络中记录了大量用户的信息,用户与用户间的关系有的紧密有的疏远,社会网络的社区化趋势越发明显,为了更好的理解社会网络中社区结构的特征以及社区演化的规律,大量学者投入到社会网络的研究中来,社会网络中的社区发现研究可以将整个网络划分为粒度小的社区,让我们更加清晰的了解网络结构,针对社会网络中的社区发现问题,本文的主要工作如下:首先,给出了一种改进的衡量用户相似度的方法。社区发现的大部分算法可以进行有效的社区识别,但是缺点是仅仅考虑了节点之间直接的、无向的关系,然而这在真实的在线社会网络中是不合理的,只依靠节点之间直接的、无向的关系并不能准确度量节点之间的相似程度,本文充分考虑节点之间直接与间接的关系,并且考虑了关系的有向性带给度量节点之间相似性的影响,给出一种新的基于用户关系的亲密度计算方法。首先给出了关注和粉丝矩阵的生成算法、直接亲密度与间接亲密度的定义。综合考虑有向的关注关系和粉丝关系给出了直接亲密度的计算公式,然后充分考虑节点间接关系给出了间接亲密度计算方法。最后给出了能够综合衡量节点之间结构特性的用户亲密度计算方法,并且给出了计算过程。然后,对基于密度峰值和快速搜索的聚类算法进行了改进,其作为一种高效的、新颖的聚类方法,可以自动识别社区的规模,并且可以得到任意形状的簇结构。但在识别社区中心时,可能导致将同一簇结构拆分为两个簇结构,影响了算法的结果。本文将其聚类思想应用到社会网络中社区发现的研究中,并结合社会网络的特性,给出了改进后的识别社区中心的方法,使其可以更加准确的识别社区中心,给出了基于密度峰值的社区发现算法。然后将上述两种改进方法相结合,基于用户关系的亲密度计算方法得到用户亲密度矩阵,使用基于密度峰值的社区发现算法来计算用户的重要度与距离,使其属性计算更加合理,最后给出了完整的基于用户亲密度与密度峰值的社区发现算法。最后,在微博数据集和公共数据集上验证算法的结果,实验表明了算法的可行性以及有效性,算法的参数调节策略使其具有较好的灵活性,算法同样适用于无向的用户关系网络,证明了算法具有较好的泛化性。