社交网络中基于链路预测的推荐系统研究

来源 :江苏大学 | 被引量 : 1次 | 上传用户:choasy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
链路预测作为数据挖掘的一个领域,在复杂网络中有着广泛的研究。随着在线社交网络的蓬勃发展,潜在好友的推荐成为社交网络服务中的基础功能。链路预测是基于当前的网络结构和节点的属性去预测现在尚未结交的用户“倾向于成为朋友”,并将此结果作为“朋友推荐”发送给用户。因此,社交网络上的链路预测具有较好的实际应用价值,而且相比传统的复杂网络,社交网络有更多的信息可以利用,比如社团特征、文本信息等。一个好的链路预测方法往往需要一些好的网络特征或生长机制来支持,如网络的社团结构、偏好连接和弱连接效应等都可以很好的指导链路预测。在本文中,首先,我们根据社交网络的特点提出了一种基于关系强度的机制,并基于此机制改进了传统的链路预测算法。其次,考虑到用户的已有链路关系和兴趣偏好都是影响链路的重要因素,并通过结合社区发现算法做了进一步改进,该方法同时利用了用户的关系信息和兴趣偏好特征。最后,如何利用好这些网络信息与机制是影响链路预测准确率的关键。为此,本文设计了一个结合链路预测与标签传播社区划分算法的好友推荐系统。具体的研究内容如下:(1)针对传统链路预测只利用节点和网络的结构信息,忽略了社交网络上关系形成的原因,提出了一种改进的链路预测算法(Combining Node degree and Relationship Strength,简称CNRS)。首先发现了社交网络相对于复杂网络的独有特点,社交网络链路的产生基于各种各样的关系,本文通过共同邻居紧密度来间接度量关系强度这一概念;其次根据关系强度改进了局部链路指标,并详细说明了计算方法。实验证明,考虑关系强度越高的节点对之间未来产生链接的可能性确实更大,且社交属于越明显、平均度越高的网络,性能提升越显著。(2)偏好连接已经被证明是可以提高链路预测准确率的一种思想,在此基础上本文提出了结合标签传播和链路预测的算法。首先,收集用户的属性特征和文本信息发掘其潜在偏好并提取标签,以此构建用户特征向量模型计算用户间相似度;然后基于改进的多标签传播社区发现算法(Multi-Label Propagation Algorithm,简称MLPA)挖掘出相似社区;最后,在社区基础上利用链路预测找出关系强度最密切的节点对,选择Top-K潜在好友列表推荐给用户。该方法综合考虑了网络结构和节点属性信息,不仅进一步提高了准确率,也减小了链路预测计算规模,并在真实数据集上进行了评估。实验结果表明我们的算法要优于现有的局部指标方法。(3)应用结合算法做朋友推荐,设计实现了一个集成CNRS算法和MPLA算法的社交网络推荐系统。针对实际应用中的问题,本文充分考虑了数据采集与预处理,然后集成推荐模块。考虑到大数据技术已经应用于海量的社交数据处理,本文的推荐算法实现采用了分布式计算,因此具有一定的实际应用价值。
其他文献
稀土作为不可再生的矿产资源,因其独特的物理特性,成为工业发展中的“维生素”。作为珍贵的战略资源,其合理的开发利用对于我国的现代化工业发展进程有着重要的意义。但也因其特殊的价值,导致稀土的开发出现乱采甚至盗采的现象,这无疑是对资源的一种极大浪费。遥感技术具备快速、多时效、大范围等特性,且随着其空间、时间精度的不断发展提升,逐渐成为了矿产资源监管调查的有效手段。本文针对稀土开发特征,构建了完整的稀土开
中国的森林资源丰富,位列世界第五位。但是由于林业生产经营周期较长,林木容易遭受森林灾害的侵袭或破坏,往往给林户带来巨大的经济损失,严重影响林业的可持续发展。森林保险是提高林业风险抵御能力的重要机制,也是全世界林业发达国家应对林业生产风险的重要措施,具有稳定林业生产、推进林业改革等作用。但黑龙江省的森林保险发展相对滞后,直到2014年黑龙江省才开始森林保险的试点工作,关于黑龙江省森林保险的研究也相对
面对日益严峻的能源危机和环境污染问题,光催化析氢和降解有机污染物被认为是最有前景的解决方案之一。本文通过在g-C3N4的骨架上接枝芳香环以及构建g-C3N4与无机半导体异质
枇杷(Eriobotrya japonica Lind1.)是蔷薇科枇杷属植物,为中国南方的常绿果树。与大多数春天开花的蔷薇科果树如苹果、梨、桃、李等相反,栽培枇杷是“秋花春实”。苹果、梨等
折射Lévy风险模型以及具有Parisian延迟的风险模型在随机过程理论及金融保险领域具有非常重要的理论价值和现实意义。本文中我们研究了折射Lévy风险模型中与draw-down时有
随着经济社会和信息技术的快速发展,信息的传播方式发展了巨大的改变。在线旅游作为一种新型旅游商业模式,越来越受消费者的青睐。在线旅游网站的产品信息丰富,包含价格、用户反馈、行程特色、优惠活动和服务保障等多方面的信息,各指标或多或少地影响着线上旅游产品的销量,找出显著影响销量的因素并对销量进行有效的预测尤为重要。本文以去哪儿网站上的线上旅游产品为研究对象,使用八爪鱼采集器收集去哪儿网站上在线旅游产品的
目的:探讨Modic改变(MC)、许莫氏结节(SN)与脊柱骨盆参数及腰椎间盘退变的关系。方法:回顾性分析了2018年07月01日至2018年12月31日因腰椎间盘退变(LDD)性疾病(腰椎间盘突出症、退行性腰椎滑脱、腰椎管狭窄症等)在我院骨科住院患者的临床资料。采集患者的一般人口统计学资料;腰椎侧位片上测量脊柱-骨盆各参数及MRI上评估MC、SN的发生情况及腰椎间盘退变程度。根据MC发生与否进行分
南繁区位于我国海南岛南部,在水稻等农作物科学育种上有着不可替代的地位,是我国农作物繁育制种的重要基地。随着各地大量的育种材料进出南繁区,在利用南繁区热带气候资源优
本论文的研究内容主要分为两部分。第一部分,采用热蒸发沉积法在液相基底(离子液体)表面制备了金属Zn纳米结构晶体,并基于微观形貌的表征和理论计算与分析给出了此类金属纳米
黄瓜(Cucumis sativus L.)属于葫芦科黄瓜属一年生蔓生或攀缘草本植物,是世界上种植面积最大的蔬菜种类之一。如果在苗期生长过程中遭遇弱光等不良天气影响,极易导致幼苗徒长