论文部分内容阅读
近年来,以微博客为代表的在线社交网络发展迅猛,层出不穷的社交网络深入人们生活的方方面面,针对在线社交网络的挖掘和分析也已经成为学术界的研究热点。本文主要研究构建高效稳定的社交网络数据收集架构,以及对收集到的数据进行可视化分析和数据挖掘。首先,本文设计并实现了一种Master-Slave结构的在线社交网络数据收集架构。该架构同时利用多台计算机,具有易部署、方便扩展和稳定性高的特点,有效地克服了社交网络数据接口调用的限制。系统自从部署以来已经稳定运行近两年,累计收集到新浪微博1.6亿条用户资料,69亿条用户关系,2,000名核心用户约1,000万条微博,以及连续2年的每日热点话题数据。并在此基础上,开发了底层读写类、图数据处理和文本数据处理等接口。其次,本文提出了一种新的社交网络结构可视化方法,并对新浪微博的数据进行了可视化分析。针对大规模社交网络结构可视化问题,本文提出了一种基于关注者交集比例和谱聚类的新型可视化方法,该方法利用幂律网络的特点,将用户分为核心用户和普通用户并设计了不同的可视化算法,从而能够在保持网络结构信息的前提下,对数以亿计的用户和数以十亿计的关系进行可视化。然后利用新浪微博的数据对微博用户地理位置分布、微博普及率与社会发展指标的关系、地区之间的连接关系以及微博网络结构进行了可视化分析。最后,本文提出了一种新的网络结构平衡性度量方法,并对比挖掘了新浪微博和Twitter两大社交网络的网络结构。本文提出了一种新的能够度量用户关系和整个社交网络平衡性的方法,边平衡度。然后对比分析了新浪微博和Twitter的度分布、微博活跃度分布、度与微博数相关性、平均路径长度以及用户排序等基本网络结构特征。另外重点挖掘了两者在关注倾向上的差异,从朋友关系的同质性、关注关系分布、网络同配性和边平衡度四个方面进行了对比分析,结果表明,新浪微博用户关注倾向的等级层次性比Twitter用户更加明显,这是用户文化背景的差异在社交网络中的表现。本文设计和实现的在线社交网络数据收集架构具有实际工程意义,而针对社交网络的可视化分析和数据挖掘揭示了其结构特征、与现实生活的差异和联系、以及用户的文化和地域背景对其在社交网络上行为的影响,具有重要的科研价值。