论文部分内容阅读
微博社区识别是基于现实生活中的人发展起来的,具有依赖的真实性、联系的方向性、信息的海量性等特点。传统的社区识别技术大多是基于随机网络的研究,具有数据量比较小、时间复杂度高等特点,识别效果不能满足要求。本文从微博社交网络的结构研究出发,以微博社交网络作为研究平台,社会学中的分类聚类算法为基础,对微博用户间的关系进行分析,研究发现微博社交网络用户中存在着少量的一对多和大量的多对多关系。在此基础上提出了基于微博星网状子图结构的社区识别算法,并对算法进行了性能、参数、误差的对比分析与改进。此外,引入基于云计算的 Hadoop数据分析平台,通过 Hadoop下的用户 Tweets信息统计分析算法,对微博海量数据分析处理,为从微博海量数据方面验证识别算法的准确性提供了依据。最后,提出微博用户社区满意度模型,对社区识别算法进行了定量分析和评估。模型可行性验证是以“新浪微博”作为数据来源,结合识别出社区内用户的实际满意情况做对比分析,充分验证了算法的可行性和有效性。