论文部分内容阅读
随着信息时代的极速发展,互联网已经成为人们生活中的重要组成部分。与此同时,在线社交网络更是呈现出了爆发性的趋势,人们也越来越倾向于在网络上与朋友们分享日常生活娱乐以及工作等等。链接关系作为连接社交网络用户的纽带,是在线社交网络的重要基础,社交网络中的链接分析也吸引到了越来越多研究者的关注。对社交网络中的链接进行分析预测有助于大量基于社交网络的应用的构建,例如好友推荐系统,在线广告系统,信息传播和舆情监控系统等等。目前,多数的基于社交网络链接分析都以单一的社交网络作为目标。然而,互联网中存在多种不同的社交网络,针对多个社交网络中的链接进行联合分析不仅可以更深入理解不同网络中链接增长的特点,为不同社交网络的设计者、用户等在维护与增长链接关系等方面提供有益的建议,而且可以在一定程度上解决单一社交网络链接预测中的关系稀疏问题和推荐系统中的“冷启动”问题。然而,基于多个社交网络的链接分析面临如下挑战:不同社交网络由于其特有属性而导致其链接形成机理不同。例如,微博系统中,用户通常基于获取感兴趣的信息的目与其他用户建立关注关系,而在学术社交网络中,用户通常由于研究方向类似或所处机构相同而建立合作(Co-Author)关系。与此同时,一个用户也可能同时在多个社交网络拥有账号,由于社交网络平台之间的封闭性,我们很难直接定义不同社交网络中的相同用户。基于上述问题,本文以多个社交网络中的链接关系作为研究目标,分别定义了网络内部链接关系(下文称之为社交链接)与网络间链接关系(下文称之为锚链接)。使用不同网络中的内容与结构信息,构建相应模型对这两种链接关系进行分析建模。本研究的主要内容与创新点如下:(1)多网络中用户社交链接增长速度分析。不同社交网络有其固有的特性,而用户在社交网络中,发表何种类型的文本内容与用户好友的类型都直接影响到用户在未来一段时间内其社交链接关系的增长数目。本研究基于用户的结构与内容的信息,分别定义了基于结构、内容的多样性与密度,在此基础上对不同类型的社交网络中用户社交链接的增长速度进行了分析。在两个不同类型的真实社交网络(微博和学术社交网络Aminer)上的实验表明,由于不同社交网络的特性,用户的内容、结构与其社交链接增长速度表现出了一定的差异性。而这些分析结果可以为网络开发者,网络用户等在维持用户粘性以及增加社交链接关系等方面提供有益的指导。(2)用户网络社交链接增长速度排序。用户社交链接的增长意味着用户能够迅速在网络中确立自己的地位。而寻找社交链接快速增长的用户为基于影响力最大化等应用提供一种有效且“经济”的种子用户。本文提出一种基于因子图的排序模型,该模型既可以有效利用网络中基于用户自身属性的基于文本和结构的多样性与密度特征,又可以对用户在网络中的链接关系进行建模。在微博与学术社交网络上的实验结果表明,本文提出的算法的性能优于其他难以对链接关系建模的排序算法。此外,在不同社交网络上,不同类型的特征对于排序模型的贡献不同。这也有助于更进一步理解不同网络中用户链接增长速度与用户的结构、内容之间的关系。(3)跨网络锚链接预测。对于不同社交网络中的锚链接进行预测可以丰富用户的内容与结构信息,有效解决网络内部的链接预测的关系稀疏问题和推荐系统中“冷启动”问题。在锚链接预测的方面,首先,由于锚链接获取较为困难,那么基于分类的方法会遇到正例和负例不平衡的问题,导致分类效果下降。其次,基于矩阵分解的方法,通常会涉及到矩阵的求逆运算和求特征值的操作。这些操作会导致模型求解复杂度增加。本文提出一种基于社交网络的表示学习模型,尝试保持网络结构特性的前提下,使用锚链接上的节点将两个网络中用户映射到同一个空间下。最后,使用负采样算法(Negative Sampling)和随机梯度下降算法来求解我们的模型以获得跨网络间节点的表示。基于学得的嵌入向量采用余弦相似度的方法来预测网络之间可能存在的锚链接。