论文部分内容阅读
社会网络分析作为数据挖掘研究领域的一个热点,近几年发展迅速,研究内容主要集中在通过对网络中存在的关系进行分析,得到我们需要的重要的信息。随着计算机技术和互联网的普及和发展,单一的网络关系结构已经不足以应对解决现实中的问题,所以人们进一步提出了异构社会网络(Heterogeneous Social Networks)的概念。这是一个复杂的网络抽象结构,在网络的描述中通常包含多种关系和多种实体,这些不同的关系和实体组合形成了网络的不同结构。如何来处理这些复杂的结构,获取有用的网络信息,是对传统的社会网络分析方法的一个新的挑战。目前对于异构社会网络的研究主要集中在两个方面,一个是通过对多关系的处理,结合传统的社区挖掘算法发现符合条件的社区结构。另一个方面是通过对网络中复杂的关系链进行分析,得到网络中隐藏的重要信息。本文主要在原有的异构社会网络分析算法思想基础上提出了两个新的算法:1.基于关系链的信息发现算法。该算法主要通过对网络中关系链的分析,实现重要信息的非监督挖掘,算法引入了稀有路径的思想,为重要信息的发现提供基础;同时,为了提高算法的质量和效率,利用相关性规则对数据集进行预处理,缩减分析子集的规模。2.异构社会网络中结合关系抽取与聚类融合思想的社区挖掘算法。该算法首先通过给定的标记信息对网络中的关系进行抽取,利用多种关系的相关系数向量,通过协同矩阵建立共识函数,进而对多种关系组成的聚类成员进行融合,获取相应的社区划分结构。文中通过与传统的算法在模拟数据集和典型的真实数据集上的比较实验,证明了本文所提出算法的有效性和优越性。随着信息化的不断加强,各个领域的数据量和数据之间的关系量大大增多。这给异构社会网络分析带来了广泛的应用前景和技术上的新挑战。本文提出的两个算法对解决实际的问题起到了一定的作用,如利用对关系链的分析,可以在学术网络中依据指定研究主题寻找权威作者、在商务网络中针对特定产品查找营销群体等;利用异构网络的社区挖掘算法,可以在复杂的学术网络中划分出关系紧密的作者群体,在多种人际关系中分析出志同道合的朋友圈等。比较之前的一些算法,这两个算法在效率和质量上有了一定的提高,但是并没有完全成熟,还需要进一步的优化和改进。目前存在的异构网络方面的算法并不能完全满足各种情况下的网络分析,总体来说,这个领域的理论和算法仍有较大的发展空间,需要更多的关注和研究。