基于组合相似度的协同过滤推荐算法研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:bartech
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的进一步发展,信息的生产渠道越来越多,每时每刻都有海量的信息产生,“信息过载”问题必将会越来越严重。面对互联网上庞大的信息,互联网用户很难快速寻找到自己真正需要的信息。  为了解决“信息过载”问题,逐渐形成了两种方案,分别为:信息过滤技术和信息检索技术。作为信息过滤技术的重要应用,推荐系统可以在一定程度上解决“信息过载”问题。如今,推荐算法已经成为当前学术界的研究热点,技术人员提出了很多新颖而有效的推荐算法。协同过滤推荐算法已经成为了个性化推荐系统最普及的技术,其核心理念是分析用户过去的行为数据,建立用户偏好模型,计算目标用户与其他用户之间的相似度,其中相似度最高的多个用户组成最近邻居集合,这些用户的兴趣与目标用户最相近,然后通过分析这些最近邻居用户的行为偏好,预测目标用户对哪些物品感兴趣。  虽然协同过滤推荐算法已经被成功应用到诸多领域中,但是仍然存在着许多迫切需要解决的问题。比如,消费者的购买行为可能会受到好友的影响,然而大部分的协同过滤推荐算法却很少考虑用户之间的影响关系;用户对商品的购买时间先后次序或者评分时间等都有可能会掩藏着一定的规律,然而大部分的协同过滤推荐算法没有考虑过时间的因素,也没有挖掘其中的隐含规律;传统的相似度计算方法有一定的局限性,容易过分夸大或缩小相似度,所以传统的相似度计算方法无法很准确地计算相似度;在现实数据中,由于用户评分数据的极端稀疏性,计算用户间的相似度将更加困难,导致推荐精度较低。  针对上述问题,本文重点研究如何进一步提高用户之间相似度计算的准确性,提高推荐算法的推荐精度,实现高质量的个性化推荐。本论文的主要研究成果总结如下:  (1)由于数据的极度稀疏性会大大降低传统的协同过滤推荐算法的推荐效率,提出一种基于云填充的组合相似度的协同过滤推荐算法,首先通过云模型为用户-项目评分矩阵填充数据,然后将基于时间序列的用户影响力融合到基于Jaccard系数的相似性度量方法中。其中,融合参数通过人工取值的方法寻找最优解。在MovieLens数据集上进行验证,这种改进的相似度计算方法确实在一定程度上降低了数据的稀疏程度,进而提升了推荐效率。  (2)针对传统的相似度计算方法在数据高度稀疏的情况下容易过分夸大或缩小相似度的问题,利用用户的消费时间先后信息来挖掘用户之间的相互隐含影响关系;寻找不同用户共同评分过的项目集合,计算用户对这些项目的评分差异,通过一种加权的信息熵度量不同用户的评分相似程度;最后由随机粒子群优化算法寻找最优融合参数,将时序行为影响力和基于加权信息熵的相似度融合。实验结果表明,这种改进的相似度计算方法更符合实际情况,最终相似度的准确性更高,进而能够有效地提高推荐精度。  本文通过对上述研究内容和创新点分析和讨论,改进传统的协同过滤推荐算法中用户相似度的计算方法。深入分析各种因素对个性化推荐算法准确度的影响,建立更加准确的邻居用户模型并应用到实际推荐场景中。验证结果表明,本文所提出的两种改进算法可以有效提升推荐精度,使推荐结果更加准确,为进一步研究个性化推荐算法提供帮助。
其他文献
集合是数学学习中极为重要的知识点.通过对集合知识的学习,能够为其他数学知识的学习奠定基础,能够让我们对于相关知识的掌握程度更为牢靠.[1]通过集合问题常见错误的分析,不
随着经济社会的快速发展以及无线技术的长足进步,各种无线业务蓬勃涌现,不仅极大地方便了人们的生产生活,同时也催生出更多的频谱需求,给原本有限的频谱资源带来了严峻的考验
随着战场电磁频谱争夺日益激烈,人类用频活动日趋频繁,雷达同时会受到多个有意或无意、有源或无源干扰的影响。来自多个点源的干扰进一步压缩了雷达目标与干扰信号在时-频-空
随着无线宽带通信的迅速发展和物联网的大规模应用,越来越多的设备需要分配无线频谱。这些设备对频谱的需求绝不是如今固定分配的移动通信和无线接入频率所能承载的。认知无线
随着图像处理技术及软件的快速发展,图像篡改变得越来越简单。那些人的肉眼很难分辨出的图像篡改,给新闻界、政治界、法律界、科学界和金融界带来了很大的麻烦,引发了互联网和大
学生宿舍管理是高职院校辅导员的重要工作之一,宿舍也是集学生交流,学习等场所,对学生宿舍管理也是对学生教育工作的一部分,在社会化的推进下,也对学生宿舍管理提出了更高的
空间分集或者说多天线分集技术因为能轻易地与其他分集技术(如时间分集和频率分集)结合起来,或者在其他分集技术无法应用时仍然能够为系统提供显著的增益,而得到了极大的关注
针对中频发电机试验系统的工作特点,给出了该系统的硬件组成框图,重点分析其工作原理和软件设计方法,并详细讨论了发电机电压的测试方法.该系统充分利用了VB在界面开发方面以
LTE-A是LTE的进一步演进,其对小区平均吞吐量和小区边缘用户的数据速率提出了更高的要求。中继节点(RN, Relay node)作为一种低功率、低成本的网络节点被引入到LTE-A系统中,
随着计算机技术和多媒体技术的快速发展,多媒体图像的数量也以得到了极大地增长,如何从海量的图像库中快速、准确的检索到所需求的图像成为了当今多媒体技术中研究的热点问题