社会网络中基于链接的分类问题研究

被引量 : 9次 | 上传用户:redhatping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会网络是现实世界中人际交往的一种基本形态。作为一个新兴的研究热点,社会网络中的数据挖掘近年来吸引了各领域学者们的广泛关注。尤其是随着在线社交网络(比如Faceboo、Twitter、新浪微博、人人网等)的迅猛发展,进一步促进了以社会服务、市场营销、公共安全等为日的的社会网络研究。分类问题是社会网络数据挖掘的一个最基本的问题。社会网络中的节点分类、关系判别以及链接预测在很多领域都有广阔的应用前景。由于社会网络中的对象间存在着复杂的白相关(autocorrelation)依赖,即这些对象不是独立同分布(IID)的,所以不太适合采用传统的分类方法对其进行分类。在这种情况下,基于链接的分类(Link-based Classification)应运而生。基于链接的分类设法捕获社会网络中的自相关性,并能够对网络中的全体变量进行联合推导(Collective Inference),大大地提高了社会网络数据的分类效果。基于概率图模型的统计关系学习(SRL)对于社会网络中的分类问题有着天然的优势。概率图模型将概率论与图论完美结合起来,为不确定性知识推理提供了坚实的数学基础。SRL模型采用某种关系语言来描述关系数据(即网络数据)中对象之间的自相关依赖,是一类有效的基于链接的分类方法。但是,基于SRL的社会网络分类方法日前还存在一些难题。首先,社会网络中对象之间的自相关性难以准确把握。另外,当前的SRL模型普遍存在计算复杂度过高的问题。本文主要针对这两个问题进行了深入的研究。此外本文还对基于链接的分类在某一特定领域的应用进行了研究。本文的主要研究工作及创新点包括以下四个部分:(1)针对关系马尔可夫网(Relational Markov Networks, RMN)参数学习效率较低的问题,提出了一种RMN的两步学习框架。RMN是一种有代表性的SRL模型,它采用结构化查询语言描述对象之问的自相关性,让用户自定义关系基团模板来确定模型的网络结构。因此,RMN只须进行参数学习而无须进行结构学习。这种结构简单性使其很容易被应用到实际的社会网络中。然而,参数学习的复杂性又使得它很难处理规模较大的网络。针对这一问题,提出了一种RMN的两步学习框架:根据RMN的组成结构,将模型中的基团分为证据基团和相容基团之后,先在“扁”环境中学习证据基团中的参数,然后将其作为输入学习整个模型的参数。这一学习框架使RMN的参数学习效率得到了很大的提高。(2)提出了一种基于社区的关系马尔可夫网(Community-based Relational Markov Networks, C-RMN)模型,用于对社会网络中的节点进行分类。社区结构性是社会网络最重要的特性之一。本文根据“物以类聚”的思想,将社区结构信息加入到RMN的关系基团模板定义中,从而提高了关系基团模板描述标签变量之问的依赖关系的准确性。另外,还提出了一种判别式最大伪似然估计(Discriminative Maximum Pseudo likelihood Estimation, DMPLE)方法,通过使用伪似然技术对C-RMN模型参数进行近似求解。基于真实网络数据集的实验表明,与RMN模型相比,C-RMN模型的分类准确率得到了较大的提高;DMPLE方法能在损失少量分类准确率的情况下大大提高模型的学习效率。(3)提出了一种基于社区结构的关系判别方法。在社会网络的关系判别任务中,社区结构信息仍然起着至关重要的作用。我们利用其构建基于社区结构的条件随机场(Conditional Random Fields, CRF)关系判别模型:首先通过某种社区发现算法检测出社会网络的社区结构,然后利用社区结构信息来构建以关系类标签为目标变量的CRF,最后利用伪似然技术对模型进行参数估计。另外,还提出了一种迭代近似推理算法,以提高模型的联合推理能力。针对两个真实社会网络数据集的实验结果表明,基于社区结构的关系判别方法在预测准确率方而比传统分类器以及RMN模型都有很大的改善。(4)针对移动通信这一特定的应用领域,提出了一个基于关系判别的类型化社区发现框架。移动社会网络是由移动用户及其之间通信关系所形成的一种社会网络结构。多年来,移动通信运营商力图通过用户的历史通信记录来发现一些特定的用户群体(即类型化社区,如企业集团用户和家庭用户等),以达到精准营销与服务的日的。本文提出了一个基于关系判别的移动社会网络类型化社区发现框架:首先利用基于链接的分类方法对任意两个有关联的移动用户之间的关系进行判别,然后将关系判别结果(以概率形式表述的标签取值)作为关系的权重,运用带权社区发现算法来发现类型化的社区结构。基于真实移动社会网络的实验结果表明,这一框架能够有效地发现移动社会网络中特定类别的用户群体。
其他文献
新疆维吾尔自治区速度滑冰运动员作为一支新的速滑力量在第十三届全国冬运会速度滑冰比赛中崛起,成为我国速滑版图上的新生力量。探索新疆成绩突破背后发展战略的实质,对我国
依据《企业年金试行办法》和《企业年金基金管理试行办法》,本文在解析企业年金替代率的基础上,构建了企业年金替代率的测算模型:并对我国2006~2031年男性和女性职工的企业年
随着近些年城市轨道交通的快速发展及人们对轨道交通的依赖性的提高,如何确保旅客安全及为乘客提供更优质的服务,已成为地铁工作的主要内容。地铁车载多媒体信息系统作为最直
目的1、通过对来院就诊并同意进行调查研究的200例未婚先孕人工流产青少年的焦虑状况调查,探讨该人群不良心理特征,并分析产生问题的原因。2、通过对未婚先孕人工流产青少年
<正>土地整理在我国是一个新兴的产业,是在耕地迅速减少、人口急剧增加的前提下提出来的。世界各国都把土地整理提到了议事日程上来,并取得一定成效。土地整理具体包括土地平
精神病患者出院后的职业康复研究是目前西方精神疾病康复研究的热点。通过帮助出院后症状稳定的精神病患者就业,来帮助患者获得技能,获取收入,增强自信和自我认同,提升生活质
<正>主体—对象—过程,是管理学中的一种三维角度的问题分析框架。具体到财政支持中小企业发展的分析,主体即支持中小企业发展的政府主管部门,在本文中主要是财政部门和税务
高固含量体系相对于传统的固体环氧树脂-聚酰胺体系来说存在着3个不足点:涂膜的柔韧性差、表干时间长以及使用寿命短。本研究以传统的固体环氧树脂-聚酰胺作为参考,讨论了胺类
目的 探讨X染色体连续缺失所致的与X连锁慢性肉芽肿病(X-CGD)相关的Mcleod综合征的临床特征。方 法 回顾分析2例经基因分析诊断为Mcleod综合征和X连锁慢性肉芽肿病患儿的临床资
智者哲学是古希腊早期哲学走向繁荣时期的枢纽,在整个西方哲学史上占有重要的地位。但是由于苏格拉底、柏拉图、亚里士多德等人的批判,智者学派被排斥在哲学之外,并视为诡辩