论文部分内容阅读
随着移动互联网技术的飞速发展,基于位置的服务不断增加,越来越多的人通过在线社交网络分享带有地理标记的图片、视频以及文本等内容,形成了基于位置的社交网络(Location Based social Network,LBSN)。对社交网络进行数据挖掘又称为链接挖掘。本文研究的LBSN朋友关系链接预测是链接挖掘的一个分支,是当下学者研究的热点。对LBSN提供的大量基于时空维度的签到信息进行挖掘为链接预测研究提供新的方向。然而,LBSN用户的签到分布稀疏,且分析维度单一,对预测性能的改善造成困难。针对以上问题,本文从用户、时间、位置以及位置语义四个维度挖掘签到信息中包含的用户相似性特征,并利用有监督学习的策略综合这些特征进行链接预测。在真实网络数据集中的仿真实验结果表明,本文提出的方法显著提高了链接预测的性能。论文的研究工作得到了国家自然科学基金项目(No.61172072、61271308)、北京市自然科学基金项目(No.4112045)和高等学校博士学科点专项科研基金(No.20100009110002)的支持。论文的主要工作和贡献包括以下几个方面:(1)从用户、位置和时间三个维度来分析LBSN数据集基于签到行为的分布特点。分析可知,LBSN用户的签到分布稀疏,这对充分利用签到信息造成困难。(2)针对签到地点分布稀疏的问题,利用层次聚类算法对签到地点进行聚类,引入广义地点的概念,并由此来构建广义的地点关系网络,从而大大减少网络中的孤立点数目,尽可能的保留网络中的用户。针对用户的签到在时间维度分布稀疏的问题,利用单个用户在不同时刻签到行为的相似性来修正两个用户在不同时刻签到行为的相似性,充分利用签到时间信息。(3)提出UTP模型来挖掘基于时空维度的用户相似性特征,并提出了综合用户和位置的相似性特征和基于签到时间的相似性特征。在真实网络数据集中的验证表明,这两个特征能够有效区分朋友和非朋友关系。(4)从位置语义维度挖掘基于地点语义的用户相似特征。利用LDA文档主题建模思想对所有用户的签到语义POI信息进行位置主题建模,并提出了基于签到地点语义的用户相似性特征。在真实网络数据集中的验证表明,该特征能够有效区分朋友和非朋友关系。(5)融合基于LBSN的网络结构信息、签到地点信息以及地点语义信息得到多维相似性特征向量,并利用有监督的策略来进行链接预测。在真实网络数据集中的实验表明,相较于传统的链接预测算法,本文提出的基于多维信息的链接预测算法显著提高了 LBSN链接预测的性能。