论文部分内容阅读
随着近年来互联网技术的快速兴起,在线社交网络作为一种现实社交在互联网中的投射物,越来越具有相当的研究价值。在现实社会关系中,以自然人为节点,人与人之间的各种直接联系为边,可以构建出一个十分复杂的社交关系网。人类的社会性和地理、文化等因素又共同决定着这种现实社交关系网必定是以各种各样或大或小的社交圈组成的,而现实中的这种社交圈特征投射到在线社交网络中,则表现为以虚拟用户为节点的虚拟社区。 虚拟社区检测对于理解在线社交网络的结构特征以及其演化规律、从而为进一步理解人类社会关系特征、乃至于理解人类行为规律都有着十分重要的作用。从应用的角度来讲,在社交网络中发现虚拟社区可以让互联网服务提供者更好地理解用户的行为模式和兴趣爱好,从而更好的为用户提供个性化服务。而在信息安全的层面,虚拟社区检测技术在应对网络水军、非法信息传播控制等上都具有相当高的现实意义。 本文分析了社区发现领域的现有理论和技术,总结出其面临的几个问题,在综合考虑模型效果、在线社交网络数据形式以及处理效率的的基础上,提出了基于隐狄利克雷分布的社区发现模型及其实现。本文的主要工作以及研究成果包括: 1、介绍了社交网络大数据挖掘的基本背景以及社区发现的已有相关研究和工作,在对已有工作进行阐述和分析的基础上,总结出现有工作所面临的问题,并提出了相应的解决办法; 2、基于贝叶斯图模型,提出了一种可综合考虑交互信息、网络结构以及交互行为时间信息的社区发现模型COT(Community Over Time),可用于从在线社交网络的交互数据中发现具有特定主题倾向及周期性行为模式的动态交互社区; 3、为了使COT模型适应于大数据时代海量数据处理的要求,本文在对COT模型进行详细分析和优化的基础上提出了一种可有效应用于并行与分布式计算环境下的近似模型AD-COT(Approximate Distributed COT),大大提升了COT模型的可扩展性; 4、利用新浪微博的大规模数据集,本文基于Apache Spark平台对COT及AD-COT模型进行了实验验证,并对试验结果进行详细分析和总结,并对下一步工作的方向进行展望。