论文部分内容阅读
随着以Web2.0技术为基础的社会化媒体的兴起,基于位置的社交网络(LBSN,Location Based Social Network)服务、各种移动端社会化媒体的出现以及城市的快速发展,兴趣点(POI,Point-of-Interest)的数量也随之增长,人们通常喜欢探索城市与邻近的地方,根据自已的个人兴趣选择与自已偏好相关的兴趣点。基于位置的社交网络为研究人们移动行为提供了前所未有的机会,用户喜欢在这些基于位置的社交网络平台上,分享他们对各个地方的签到记录与兴趣爱好,以及他们对服务、产品的评价与体验,并且建立与维护他们的社会关系,从而展现自已的偏好与个性。这些基于位置的社交网络的创建者也更加重视对用户基础数据和行为数据进行采集、挖掘与分析,更好地理解用户的移动行为,从而更加了解他们的用户,利用兴趣点推荐改善用户体验并满足用户需求。同时社会化媒体的兴趣点推荐会面临一些新的问题:如何综合利用社会化媒体中的多样数据?如何解决用户签到数据的稀疏性?如何处理隐式的用户反馈与复杂的用户关系?如何应对用户生成内容的时效性?针对这些挑战,本文提出并设计一系列融合上下文信息的兴趣点推荐算法,提高并改善社会化媒体中的兴趣点推荐效果以及用户体验。本文创新工作如下:1.基于位置社交网络的上下文感知的兴趣点推荐。基于位置社交网络中的兴趣点签到矩阵是高稀疏的,用户兴趣随着不同时间与地理位置是动态变化的。针对此问题,本文提出一种上下文感知的概率矩阵分解兴趣点推荐算法。首先利用潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型挖掘兴趣点相关的文本信息学习用户的兴趣话题生成兴趣相关分数;其次提出一种自适应带宽核评估方法构建地理相关性生成地理相关分数;然后通过用户社会关系的幂律分布构建社会相关性生成社会相关分数;结合用户的分类偏好与兴趣点的流行度构建分类相关性生成分类相关分数;将这四种相关分数进行分数匹配生成偏好分数;最后将其有效融合到概率矩阵分解模型(PMF, Probabilistic MatrixFactorization),生成用户感兴趣的兴趣点推荐列表。实验结果表明,该模型明显优于先进的NCPD算法,在Foursquare数据集上,准确率和召回率分别提高了 27%和24%;在Twitter数据集上,准确率和召回率分别提高了 26%和25%,显著提高了兴趣点推荐的精确度。2.基于用户签到行为的兴趣点推荐。目前缺乏一种综合分析地理影响、时间效应、社会相关性、内容信息和流行度影响这些因素共同作用的方法来处理兴趣点推荐稀疏性问题,特别是异地推荐场景。针对此问题,本文提出一种联合概率生成模型,第一个同时将上述因素进行有效融合的联合效应模型,模拟用户签到行为的决策过程,利用地理相关性设计一个良好的空间索引结构即空间金字塔,对当地偏好进行平滑优化,进一步缓解数据稀疏问题。该模型包括离线模型和在线推荐两个部分,支持本地和异地两种推荐场景,并利用一个可扩展的查询过程技术阈值算法加速在线推荐过程。实验结果表明该模型明显优于先进的SVDFeature算法,异地推荐场景中,在Foursquare数据集上,准确率和召回率分别提高了 24%和26%,在Twitter数据集上,准确率和召回率分别提高了 21%和23%,在豆瓣数据集上,准确率和召回率分别提高了 22%和24%;本地推荐场景中,在Foursquare数据集上,准确率和召回率分别提高了 14%和16%,在Twitter数据集上,准确率和召回率分别提高了 23%和20%,在豆瓣数据集上,准确率和召回率分别提高了 15%和17%,显著提高了兴趣点推荐的精确度。3.基于社会化媒体挖掘与可视化的兴趣点推荐。社会化媒体的社交网络中,图像还没有很好地被利用到兴趣点推荐研究。针对此问题,本文提出一种社会化媒体主题模型,充分利用Twitter的文本、图像、位置、时间和哈希标签这五个特征之间的内在关联性构建一个联合概率生成模型。并研究Twitter上的图像对兴趣点推荐的影响,解决噪声图像问题,预先定义三个标准:可视化一致性、可视化相关性与可视化多样性,利用卷积神经网络(CNN, Convolutional Neural Network)选择代表性的图像对兴趣点进行可视化。实验结果表明,该模型明显优于先进的TRM算法,在Twitter数据集上,平均准确率提高了 22%,显著提高了兴趣点推荐的精确度。