论文部分内容阅读
社交网络伴随着互联网的蓬勃发展已走入了许多人的生活中,成为不可或缺的一部分。社交网络用户的在线活动反映了某些个人特点,例如兴趣爱好、心理状态、行为模式等。挖掘和理解这些个人特点有助于提升社交网络服务质量和创造额外的价值。为达成此目标,首先需要对用户进行建模,用明确的数学模型描述用户属性,进而利用一系列的数据和算法推测用户的未知属性。社交网络因其社交性区别于其他传统的互联网应用。用户间的交流互动是社交网络中的主要活动,而交流互动主要通过用户之间建立社交关系来实现。我们用图表示社交关系,把图的结构称作社交网络的结构。已有研究表明,社交网络的结构可以间接地体现用户的某些个人特点,因而通过社交网络结构进行用户建模是可行的。尽管不同的社交网络平台侧重于不同的功能,建立和维护社交关系却总是基础功能之一。现有的研究也表明不同类型的社交网络的结构存在某些方面的共性。因而基于社交网络结构的用户建模技术有一定的普适性,一种特定的技术有可能推广到多种类型的社交网络中。基于以上考虑,本文重点研究基于社交网络结构的用户建模问题。用户建模往往是数据驱动的。单一的社交网络平台只涵盖用户某一方面的数据。为了丰富用户数据,我们还研究了用户的跨域连接技术。跨域连接旨在将同一用户在不同社交网络平台的账号连接在一起。我们提出了一种结合社交网络结构和属性信息的相似度及相关算法,并分析其理论性质。我们以社交网络的去匿名化为场景,评测了我们提出的技术。利用该技术,我们赢得了WSDM 2013 Data Challenge的冠军。用户建模还与具体应用紧密相关。我们把用户建模所涉及的用户属性分为个人属性和社交属性,分别考虑了其中两个有代表性的实例:谨慎度和社会地位。我们以提出的关于谨慎度和社会地位的模型为例,讨论用户建模的方法、遇到的问题和实际应用。心理状态是个人属性的重要子类。我们考虑了用户建立社交关系的一种心理状态:谨慎度。有的用户添加新朋友时深思熟虑,有的用户非常随意。我们提出谨慎度模型,旨在描述用户的此类特点。我们还提出了一种利用垃圾账号数据推测谨慎度的算法。通过实验,我们发现谨慎度与用户的其它属性存在一致的相关性,进而证实了谨慎度模型的合理性。随后我们介绍如何将谨慎度模型结合到现有的垃圾账号检测和链接预测技术中,从而显著提高检测和预测的性能。社会地位是社交属性的代表之一,我们也研究了对社会地位的建模。社交网络的结构隐含着某种地位信息,我们试图衡量这种地位差别,并分析与现实世界中社会地位的关系。为此我们提出了描述社交网络中个人和团体社会地位的方法,并将结果与现实世界中的排名和统计数据比较。社交网络数据充满了偏差和噪声,为了解决此问题,我们结合图的传播模型和有监督学习技术,提出了一种基于社交关系的用户属性推测算法。我们的结果表明通过社交网络推测社会地位是可能的,但其中也存在顽固的偏差。总而言之,本文通过若干具体的用户建模问题实例,表明了挖掘分析社交网络结构是用户建模的重要途径。基于社交网络结构的用户建模对一些经典应用有很大的帮助。