结合正向和负向相关因子的推荐算法研究和应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:a372092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的应用和普及把我们带到了网络信息的时代,用户在面临海量资源共享的同时对需要精确获取的信息反而束手无策。为了解决信息检索中难以满足个人独特需求的问题,个性化推荐系统(Personalized Recommendation System)应运而生并迅速得到了广泛的应用和普及,它可以帮助用户发现感兴趣的信息,协助网站建立用户关系,避免用户群的流失进而提升用户的忠诚度。协同过滤是推荐系统中最为核心的技术,其主要思想是根据用户过去的浏览、购买、评价等历史记录和与之关联密切的具有类似爱好的最近邻用户群,预测目标用户的兴趣偏好。传统的协同过滤算法比如ItemKNN,只能捕捉到至少有一个共同用户评分的物品之间的关系。为了解决这个问题,基于物品的特征模型被提出,它在学习物品与物品之间的关联时借助了两个低维空间向量。然而,这些算法的思想是把所有的用户打分物品一视同仁,都看作同一类的正例因子。这显然是不合理的而且很难精准的预测用户的兴趣爱好,因为会忽视物品本身所具有的唯一性和特质。针对上述问题,在本论文中,我们提出了一个新颖的基于物品的特征向量模型,该算法在学习物品关联性的过程中全方位的考虑了用户的正向和负向反馈信息。具体地,对于每一个用户,我们首先计算出他的打分平均值,然后依次与物品分值比较,按照此规则把曾经评过分的物品分为两个互斥的集合,即高于平均分的归为正例,低于的物品纳入负例。在模型中存在一个假设,那就是:如果目标物品与多数正例高度相似,那么我们也预测该用户对它的评分也会相对较高。反之,如果目标物品和许多负例具有密切相关性,那么在评分预测中它将会得到一个较低的分数。我们可以运用机器学习的思想提取每个物品的特征向量,然后以两个低维向量的内积取代物品相似度。本文的主要贡献有:1、针对用户,将物品集划分成正例和负例两类,同时定义了正向和负向反馈信息,充分利用有限的反馈资源,有助于更精确的捕捉用户的兴趣爱好并使得用户较为喜欢的物品排名靠前。2、运用机器学习的技术训练物品特征向量,以一组与用户强关联的物品来代替用户本身,消除了用户和物品不同属性之间的隔阂,增强模型的灵活度和可操作性。另外,特征向量的内积可以代替相似度,其加和记作用户的喜好指数。3、融入隐式反馈能够大大促进精确度的提升,同时我们又将所有的反馈信息根据物品集的分类进行了区分,分别为正向积极反馈和负向削弱反馈。相应地,引入了控制因子用来协调二者在模型中的比重和对推荐结果的影响。4、构建了一个修正的结合正向和负向相关因子的推荐模型,进而分析和对比了算法中各参数的作用和影响,并在多个数据集上进行了大量综合性对比实验。为了得到更全面的分析结果,我们运用了两个不同的数据集来验证推荐算法的性能优劣。最后本论文给出了不同算法的性能比较和相关参数对模型的影响分析。综合的结果显示本论文提出的模型与其他算法相比不仅在评分预测方面而且在top-n推荐分支上都取得了显著的效果提升。这也表明该算法可以更加直接而且高效地预测用户的兴趣爱好,从而大大增强推荐结果的精确度和准确率。本论文方法目前已经应用到海信智能电视聚好看产品的视频推荐中,该产品某一平台日均活跃用户约100万人,播放量约400万次。通过本方法改进后,平均播放量增加到了420万次,比之前提升了5个百分点,取得了较好的推荐效果。
其他文献
近年来云计算和大数据应用的发展如火如荼,作为其基础设施的大规模数据中心等网络设备的能量消耗问题越发凸显。当今网络中普遍存在着大量的路径冗余,链路利用率不均衡和非常
全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代,集中式的索引管理方式面临巨大挑战,最佳的解决方
面对越来越丰富的IT (Information Technology,信息技术)资源,越来越复杂的IT环境,无论企业还是政府的IT部门都开始广泛采用ITIL (Information Technology Infrastructure Li
随着无线通信技术的迅速发展,越来越多的人们希望提供无处不在的、高质量的无线通信,无线接入技术也得到了迅速的发展。无线MESH网络就是一种新型的宽带无线接入系统,是一种
长期以来,织物CAD技术一直是计算机在纺织领域中的一个重要应用与研究方向,织物CAD作为高新技术的手段为纺织品的设计和生产提供了很大的方便。织物的外观模拟在设计阶段就能
本文研究相关分析方法在异常检测中的应用,并将其应用于特征选择及地震特征数据的异常检测中。主要研究内容如下:提出了一种基于离散粒子群算法(Binary Particle Swarm Optim
计算机科学与技术的不断发展和计算机的广泛应用,促进了社会的进步和繁荣,给人类创造了巨大的财富。尤其是计算机网络的发展,日新月异,使信息共享广泛用于金融、贸易、商业、企业
当前国内的网络安全事件频频发生,垃圾邮件的泛滥成为其中显著的特点之一。传统的反垃圾邮件方法以基于内容的过滤为主,按照基于统计和基于规则划分为多种算法。但这些方法都
随着医学影像诊断技术的逐渐成熟,大量医学图像数据随之产生。这些海量图像的出现极大地丰富了医学工作者和科研人员的参考、教学和研究,然而怎样对如此大量的图像数据进行有
红眼是使用闪光灯拍摄照片时的常见现象。人类的瞳孔在环境光线不好的情况下会放大。在这种情况下使用闪光灯拍照时,人的瞳孔来不及收缩,光线直接穿过瞳孔照射在视网膜的微血