论文部分内容阅读
本文设计并实现了针对微博的社区发现系统。系统包括并行化的数据采集软件和基于Hadoop平台的并行化社区发现算法,本文采集了百万用户规模级别的社交网络数据,并用图结构来表示采集的社交网络数据,测试表明,本文设计的系统有能力处理采集到的大规模数据,并得到合理的结果。
本文首先介绍了微博的发展现状,接着简述了几大类社区发现技术,并指出社区发现技术应用于微博这一社交网络的意义。接下来本文讨论了社区的定义,并分析了微博中反映社区结构的数据,以及根据这些数据构建模型的方法,即如何用图结构来形式化的表示社交网络,并举例子直观的展示了微博的社区结构。对于系统用到的算法,本文从基本概念、算法原理、算法流程等方面详细介绍了谱聚类算法和CNM算法,并对算法的优缺点进行了分析。接下来本文基于Hadoop对这两个算法进行了并行化实现,使之能处理大规模数据,并给出合理的结果。最后,本文分别用小规模数据和大规模数据对系统进行了测试,并根据测试结果展望了更进一步的工作。