【摘 要】
:
随着互联网技术的发展,以微博、Twitter、Facebook等为代表的社交平台及以Yelp等为代表的生活消费平台逐渐形成了包含社交属性的复杂网络。这些网络所包含的数据种类繁多、数据量巨大,挖掘这些数据包含的信息,对于改进平台功能改善用户体验都具有十分重要的意义。如微博、QQ等可以通过挖掘网络节点间存在的潜在链接为用户推荐好友。链接预测就是根据已知的网络结构和节点属性来预测网络中尚未产生连边的节点
论文部分内容阅读
随着互联网技术的发展,以微博、Twitter、Facebook等为代表的社交平台及以Yelp等为代表的生活消费平台逐渐形成了包含社交属性的复杂网络。这些网络所包含的数据种类繁多、数据量巨大,挖掘这些数据包含的信息,对于改进平台功能改善用户体验都具有十分重要的意义。如微博、QQ等可以通过挖掘网络节点间存在的潜在链接为用户推荐好友。链接预测就是根据已知的网络结构和节点属性来预测网络中尚未产生连边的节点之间产生连接的可能性。典型的方法主要是通过网络结构信息进行预测,但当网络比较稀疏或网络结构可见程度比较低时,仅依靠网络结构特征进行预测无法提供足够的数据信息,从而导致预测算法的性能大幅度下降。本文提出了融合文本情感信息的链接预测方法来弥补网络结构信息不足的问题。首先构造文本情感特征提取模型来提取网络节点文本数据包含的情感特征,其次将提取的特征作为一种补充信息与网络结构特征融合并输入到分类器中进行链接预测,从而在一定程度上解决了稀疏网络中信息不足的问题。本文主要工作和创新点如下:(1)文本情感特征提取。首先,根据词语的情感极性以及词性设计了词语特征,然后根据词语特征将文本中的每个词语映射成情感词向量。其次,引入卷积神经网络用于文本情感特征提取,并以情感词向量表示的文本作为输入。最后,在卷积操作之前加入注意力机制,强调了每对节点的文本之间的联系,在卷积操作之后也加入注意力机制,以区分不同单词对文本表示的贡献程度。(2)网络结构特征提取。实验对比了Deepwalk、Node2vec、LINE、SDNE这四个网络嵌入算法的特征提取能力,最终选择Node2vec算法作为本文的网络结构特征提取方法。(3)网络结构特征和文本情感特征融合。首先,将得到的网络结构特征向量和文本情感特征向量通过向量串接的方式融合以得到最终的节点特征向量。然后,根据节点特征向量计算链接特征向量,并将网络中存在的链接作为正样本,不存在的链接作为负样本。(4)使用融合特征进行链接预测。本文将链接预测问题看作链接的二分类问题,即将融合后的特征输入到SVM分类模型中进行链接预测。实验结果表明,与基于网络结构信息的链接预测方法相比,本文的方法不仅大幅度提高了预测准确率而且在一定程度上解决了稀疏网络中因网络结构信息不足造成的预测性能下降问题。
其他文献
近年来,随着科技的飞速发展,计算机的应用变得日益广泛,多媒体信息的安全问题也显得更加突出。数字图像作为人们获取信息的重要载体,大量在网络中传输、存储,如何保证这些图
锂离子电池负极材料作为锂离子电池的重要组成部分,是锂离子电池性能得到提升的关键因素之一。因此,开发一种能够在大电流下充放电时具有高容量和稳定循环性能的锂离子电池负
心血管疾病是严重威胁人体健康的常见病,全球由于心血管疾病导致的死亡率在持续增加。心电信号是心脏活动的直接反应,是分析心血管疾病最有效的途径。目前,针对心电信号的研
众所周知光的传播速度是自然界中最快的,因此光子在信息传输、计量等方面的应用有其绝对的优势。不仅是传播速度,对于稳定性、抗干扰性等优势也决定了光子优于其他物质作为信
2015年,LHCb实验组宣布发现了五夸克态并给出了相应的质量和量子数。本文在基于Skyrme模型的束缚态方法上,考虑一对互为手征伙伴的重介子,对LHCb发现的五夸克态的量子数和质
近年来,外磁场对热QCD物质的影响引起了人们的广泛关注。许多引人注目的效应,如手征磁化效应、磁催化效应和逆磁催化效应得到了预言。在早期宇宙、中子星(磁星)的演化,特别是
时间分辨相干反斯托克斯拉曼散射是一种结合飞秒激光脉冲的光谱技术,可用于研究分子内部化学键的超快动态过程。近年来,飞秒CARS技术已逐渐应用于许多科学和技术领域,在光谱
体参数化在计算机图形学中起着重要作用,具有广泛的应用前景。一些示例应用包括体积变形,模板拟合,结构化网格重建,基于cage的变形,内部结构或体积纹理的转换等,通过实体对应的兼容网格划分以及其到规则网格的映射来进行并行体积计算。在本文中,我们将曲面叶状结构算法推广到体,提出体叶状结构算法,进而实现体参数化。我们提出的这种新的基于叶状结构的体参数化方法能够处理具有更复杂拓扑结构的实体,例如一个以高亏格
多中心数据融合能够增加研究的统计效力,因而在静息态fMRI领域越来越受欢迎,并有潜力为某些脑疾病研究提供更加可靠的生物学标记。静息态波动幅度(resting state fluctuation amplitude,RSFA)是一类能够表示人脑自发活动局部强度的指标,常用的方法包括低频振幅(amplitude of low frequency fluctuation,ALFF)与比例低频振幅(fra
汉民族的文化已经在世界各地有着广大的影响,学习汉语的二语学习者更是对汉文化有着很大的兴趣,掀起全球性的汉语热潮。语言作为文化的一部分,其学习是汉语学习者了解汉文化