LBSN中基于并行图的协同过滤位置推荐算法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:abintianshen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的今天,推荐系统能够缓解用户筛选感兴趣内容时的困扰,帮助用户发现有价值信息,已成为解决信息过载的有效手段。推荐系统中的协同过滤算法,因其领域无关性及支持用户发现潜在兴趣的优点被广泛应用。随着智能手机和地理位置服务的普及,基于位置的社会化网络(Location-based Social Network,LBSN)被社交网络服务应用商提出并受到大众的欢迎。LBSN可以实时获取用户的地理位置信息,并将在虚拟网络中传播的虚拟信息与用户在真实世界中的位置信息有效结合起来。为了解决LBSN中位置推荐的需求,学术界和工业界将协同过滤算法应用到LBSN的位置推荐中来。LBSN中的位置推荐一方面可以帮助普通用户筛选感兴趣的新地点,另一方面可以协助商家进行自身品牌推广与营销。但是,由于当前LBSN中数据具有规模过大且异构、多维度的特点,使得当前提出的应用于LBSN中的协同过滤位置推荐算法在算法实时性、推荐精确度等方面仍有较大提升空间。具体的,考虑时间、地点的实时位置推荐,本文完成了如下工作:(1)通过建立基于图的评分数据模型,将传统的协同过滤算法与并行图计算框架及改进的K近邻(K-nearest Neighbors,KNN)算法结合,提出了 GK-CF(Graph KNN Collaborative Filtering)算法。通过图的消息传播及改进的相似度计算模型对用户先进行筛选再做相似度计算;以用户-项目二部图的节点结构为基础,通过图的最短路径算法进行待评分项目的快速定位。(2)在GK-CF算法的基础上,结合了 LBSN中的时空信息,进一步提出了 LBSN中结合时空信息的协同过滤位置推荐算法LGP-CF(Location Graph Place Collaborative Filtering)。根据用户签到行为规律,将数据集分片,降低需要计算的数据规模。通过聚类算法获取相似用户集,缩小相似用户集选择范围。将轨迹数据及点数据结合起来进行相似度计算。最后,在根据经纬度信息将位置进行聚类的基础上,快速可靠定位可推荐位置集。(3)通过Spark平台上的GraphX并行图框架对上述算法进行了并行化实现及优化。通过算法流程优化及性能调优,有效的提高了算法的可扩展性和实时性能。在真实的物理集群环境下,对上述算法进行了实验,结果表明,与其他的协同过滤算法相比,在rmse、准确率、召回率等指标上,本文提出的算法显示了很好的推荐准确度和评分预测的准确性,在加速比等指标上也表明本文算法具有较好的可扩展性和实时性能。
其他文献
突现是复杂系统中通过个体间的非线性交互作用而产生的群体行为,是复杂系统表现出来的高层次事物整体所具有而其组分不具有的一种新特性。针对突现现象的研究已经成为复杂系统
计算机的普及和更新带动了互联网的发展,互联网的发展使得网络上信息的传播更为迅速和广泛。博客作为一种互联网用户之间用于交流和传播信息的工具,受到大部分人的喜爱,成为网络
近年来,车载设备作为监测列车运行状态的重要组成部分,其健康运行受到人们的广泛关注。目前关于车载设备的研究大多是基于车载设备采集系统对列车上空调系统、受电弓、车钩及
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所
室内电波预测由于不同室内环境的复杂性而出现了较多的预测模型。电磁波传播理论与数值分析方法为基础的确定性射线跟踪模型,依靠现有的计算机技术能够较好的预测电波数据。射
随着计算机技术的飞速发展和生活水平的提高,人们在许多领域对信息安全要求越来越高,例如用计算机对小区进行智能监控,不仅节约人力资源和成本,也为日后案件的调查提供证据。
蛋白质折叠结构预测问题是当前生物学研究的一个热点。由于其特殊的结构和所使用的模型限制,利用NP问题的求解来求其最小能量值从而推测出折叠结构是这个问题的研究方向之一。
随着计算机网络在各个领域中的广泛应用,产生了庞大的网络信息,其中,以手机短信、QQ聊天记录、博客评论、新闻评论等短文本形式存在的信息也得到了空前的膨胀,如何对这些以短文本
近年来,越来越多的以短文本(通常文本长度小于160字符)形式存在的信息逐渐成为了人们获取消息的主要途径之一,如:微信,微博,网络评论,网络聊天以及搜索引擎返回的网络片段等等。所以
Internet技术和无线通信技术已经成为目前世界科学技术发展中最为活跃的领域之一。人们对移动性和信息的需求也在急剧上升。越来越多的人希望移动过程中不用更改计算机配置就