论文部分内容阅读
社交网络自上世纪90年代兴起以后迅速发展,近几年大型社交网络的普及程度越来越高。“社交网络”成为了当今最受关注的互联网名词之一,它正在不断改变人们的生活和交流方式,网络中的社交关系成为了人际关系中不可或缺的一部分。与此同时,社交网络中的数据量也在呈几何倍数增长着,如何从这些海量的数据中挖掘出有用的信息成为了研究热点。社交网络的数据挖掘主要是挖掘用户间的关系,即链接挖掘。链接预测作为链接挖掘的一个重要子任务,因其重要的理论和应用价值受到了广泛关注。现有的链接预测主要是基于简单的无向无权网络,而简单的网络模型已经不能满足形式日渐多样化的真实社交网络。本文主要考虑用户关系具有明显单向性的社交网络,构建有向网络模型来模拟真实的社交网络进行链接预测。 现有针对有向社交网络的链接预测方法主要基于节点的网络结构相似性,多数是将用于无向无权网络的相似性指标拓展到有向网络中,未深入分析有向网络的结构特点。而且,现有方法通常仅考虑网络结构进行链接预测,忽略了社交网络中用户之间的文本语义关系。目前考虑用户文本语义信息的链接预测方法多数是直接对文本信息进行分析,无法捕捉文本中潜在的语义信息,且由于社交网络中文本信息的数据量庞大,需要耗费大量资源。针对上述问题,本文提出一种结合有向网络结构信息和用户潜在语义信息两种特征的有向社交网络链接预测模型:1、针对有向网络的结构特点,详细分析有向网络三节点的模体结构(network motifs),在有向资源分配指标的基础上考虑模体的多种同形异构体,提出一种适用于有向网络的相似性指标,用于描述有向网络结构特征;2、针对用户的潜在语义信息,用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型对社交网络中用户发布的文本兴趣进行建模,在文本信息中提取潜在的语义兴趣特征,降低文本维度以提高获取语义兴趣特征的效率;3、将链接预测看作一个二元分类问题,结合基于网络结构和基于用户潜在语义兴趣的两种特征,采用有监督的机器学习分类方法进行链接预测。 通过在真实的社交网络LiveJournal数据集上进行链接预测实验,证明提出的针对有向网络的相似性指标能够更准确地捕获有向网络结构特点,本文提取语义兴趣特征的方法能更有效地描述用户间的潜在语义关系,且结合有向网络结构和社交网络中的用户文本语义信息能够有效提高有向社交网络的链接预测精度。