论文部分内容阅读
社会网络是现实世界中人际交往的一种基本形态。作为一个新兴的研究热点,社会网络中的数据挖掘近年来吸引了各领域学者们的广泛关注。尤其是随着在线社交网络(比如Faceboo、Twitter、新浪微博、人人网等)的迅猛发展,进一步促进了以社会服务、市场营销、公共安全等为日的的社会网络研究。分类问题是社会网络数据挖掘的一个最基本的问题。社会网络中的节点分类、关系判别以及链接预测在很多领域都有广阔的应用前景。由于社会网络中的对象间存在着复杂的白相关(autocorrelation)依赖,即这些对象不是独立同分布(IID)的,所以不太适合采用传统的分类方法对其进行分类。在这种情况下,基于链接的分类(Link-based Classification)应运而生。基于链接的分类设法捕获社会网络中的自相关性,并能够对网络中的全体变量进行联合推导(Collective Inference),大大地提高了社会网络数据的分类效果。基于概率图模型的统计关系学习(SRL)对于社会网络中的分类问题有着天然的优势。概率图模型将概率论与图论完美结合起来,为不确定性知识推理提供了坚实的数学基础。SRL模型采用某种关系语言来描述关系数据(即网络数据)中对象之间的自相关依赖,是一类有效的基于链接的分类方法。但是,基于SRL的社会网络分类方法日前还存在一些难题。首先,社会网络中对象之间的自相关性难以准确把握。另外,当前的SRL模型普遍存在计算复杂度过高的问题。本文主要针对这两个问题进行了深入的研究。此外本文还对基于链接的分类在某一特定领域的应用进行了研究。本文的主要研究工作及创新点包括以下四个部分:(1)针对关系马尔可夫网(Relational Markov Networks, RMN)参数学习效率较低的问题,提出了一种RMN的两步学习框架。RMN是一种有代表性的SRL模型,它采用结构化查询语言描述对象之问的自相关性,让用户自定义关系基团模板来确定模型的网络结构。因此,RMN只须进行参数学习而无须进行结构学习。这种结构简单性使其很容易被应用到实际的社会网络中。然而,参数学习的复杂性又使得它很难处理规模较大的网络。针对这一问题,提出了一种RMN的两步学习框架:根据RMN的组成结构,将模型中的基团分为证据基团和相容基团之后,先在“扁”环境中学习证据基团中的参数,然后将其作为输入学习整个模型的参数。这一学习框架使RMN的参数学习效率得到了很大的提高。(2)提出了一种基于社区的关系马尔可夫网(Community-based Relational Markov Networks, C-RMN)模型,用于对社会网络中的节点进行分类。社区结构性是社会网络最重要的特性之一。本文根据“物以类聚”的思想,将社区结构信息加入到RMN的关系基团模板定义中,从而提高了关系基团模板描述标签变量之问的依赖关系的准确性。另外,还提出了一种判别式最大伪似然估计(Discriminative Maximum Pseudo likelihood Estimation, DMPLE)方法,通过使用伪似然技术对C-RMN模型参数进行近似求解。基于真实网络数据集的实验表明,与RMN模型相比,C-RMN模型的分类准确率得到了较大的提高;DMPLE方法能在损失少量分类准确率的情况下大大提高模型的学习效率。(3)提出了一种基于社区结构的关系判别方法。在社会网络的关系判别任务中,社区结构信息仍然起着至关重要的作用。我们利用其构建基于社区结构的条件随机场(Conditional Random Fields, CRF)关系判别模型:首先通过某种社区发现算法检测出社会网络的社区结构,然后利用社区结构信息来构建以关系类标签为目标变量的CRF,最后利用伪似然技术对模型进行参数估计。另外,还提出了一种迭代近似推理算法,以提高模型的联合推理能力。针对两个真实社会网络数据集的实验结果表明,基于社区结构的关系判别方法在预测准确率方而比传统分类器以及RMN模型都有很大的改善。(4)针对移动通信这一特定的应用领域,提出了一个基于关系判别的类型化社区发现框架。移动社会网络是由移动用户及其之间通信关系所形成的一种社会网络结构。多年来,移动通信运营商力图通过用户的历史通信记录来发现一些特定的用户群体(即类型化社区,如企业集团用户和家庭用户等),以达到精准营销与服务的日的。本文提出了一个基于关系判别的移动社会网络类型化社区发现框架:首先利用基于链接的分类方法对任意两个有关联的移动用户之间的关系进行判别,然后将关系判别结果(以概率形式表述的标签取值)作为关系的权重,运用带权社区发现算法来发现类型化的社区结构。基于真实移动社会网络的实验结果表明,这一框架能够有效地发现移动社会网络中特定类别的用户群体。