基于最大熵随机游走机制的社交网络标签推断研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:w_h1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,社交网络平台发展迅速。随着社交网络中实体以及实体关系的大规模增多,图结构被广泛应用于其中来为处理个体以及个体之间复杂关系。社交网络中的个体有不同的标签标注,然而,在社交网络中,标签的标注通常是由用户自己进行标注的,出于隐私的保护,很多用户并没有对自己的进行标签标注。因此,社交网络中的标签标注是不完整的。在现实应用中,完整的标签标注系统是非常有必要的。例如个性化服务以及商品推荐等,准确的标签推理算法是非常重要的并且会为我们带来巨大的经济效益。与此同时,完整的标签标注系统可以为用户带来很大的方便。在本篇论文中,我们提出了一种基于图结构的方法来解决在社交网络中标签推理的问题。主要研究成果和创新点具体体现在以下几个方面:1.提出一种新的标签推理课题,主要针对目前开放数据集较少的问题,将DBLP的数据迁移到目前的任务当中,从而为之后建立模型做好准备。2.分析数据以及研究任务,对数据进行统计处理,进而将数据应用于算法中。3.基于最大熵随机游走提出一个新的标签推理模型。首先利用随机游走模型,对整个社交网络的图结构进行挖掘,找到结构上相近的结点。同时在每一步随机游走结束后,利用最大熵的指引,使得算法更准确并且收敛的也更快。4.通过在实际社交网络中的单类多标签图结构和多类多标签图结构中应用,发现均能取得不错的效果。同时,探索在多类多标签网络中各类标签之间的相互影响程度,在未来的应用中可以帮助对标签做修正。5.针对提出的算法,其对应的时间复杂度分析以及空间复杂度分析,可以看出我们的算法在时间和空间上效率都比较高。将提出的两种算法应用到实际的数据集中,相比其他的方法均取得了比较好的效果。并且从实验中可以看出一个比较好的效果是,无标签结点的数据量较大时,我们的算法依然保持着较高的准确率。
其他文献
自组织链表是一种实用的数据结构,可以根据访问序列动态调整列表结构,适应访问模式,目的是减少平均访问时间并提高链表的性能。如果被访问的数据局部性较强,自组织链表能够比
随着互联网以及多媒体技术的飞速发展,使得数字视频在人们的日常生活中越来越普及。人们可以方便的使用手机等便携设备拍摄数字视频,在线视频播放网站如雨后春笋般涌现,大型
信息时代社交网络飞速发展,逐渐成为了人们生活不可或缺的一部分,加上全球定位系统(GPS)的广泛应用和用户对于兴趣点(point of interest)分享的需求,基于位置的社交网络(Loca
本文借助贸易引力模型和多元线性回归模型探究中国与“一带一路”的双边贸易和经贸关系现状,在最基本的贸易引力模型上扩展,加入建交时间、人口密度、距离等变量,以“一带一
自动问答系统的研究目标是正确地理解用户以自然语言描述的问题,进而高效、准确地反馈给用户答案。问句分类是问答系统的第一步,准确地对问句分类不仅能够有效地缩小答案搜索
2013年9月,《关于政府向社会力量购买公共服务的指导意见》提出,“到2020年要在全国建立较完善的政府购买公共服务体系”。党的十八届三中全会提出“政府的相关事务性服务可
随着广播技术的提高,数字化,网络化进程的推进,广大用户对广播和电视节目接收效果的要求也越来越高,这给广大工作在一线的无线工作者们增加了更多的工作量与工作任务。DF500A
可扩展标记语言(eXtensible Markup Language,XML)是W3C提出的一种半结构化的数据描述语言,由于具有高可读性、可扩展性、自描述性以及跨平台等特性,在互联网上得到了广泛的
随着互联网技术的快速发展,越来越多的领域以流式数据进行信息传输,如股票市场和社交媒体等实时系统的数据就是实时到来的,并且对流式数据进行查询的需求也在日益增加,所以如
到目前为止,关于RFID(射频识别)群组认证协议的研究还处于摸索阶段。虽然已有不少RFID群组认证协议被提出,但很多已有协议存在一些安全漏洞和隐私问题亟待解决,另外大都缺乏