论文部分内容阅读
随着互联网产业的蓬勃发展,用户每天都需要面对海量的信息,如何从繁杂的各类信息中筛选出有价值的信息成为互联网行业的一个重要问题。为了解决信息过载问题,人们提出了各种方案,其中最成功、目前应用最广泛的就是个性化推荐系统。推荐系统通过分析用户历史信息,总结出用户的兴趣特点,从而预测用户对未曾查看过的物品的喜好。个性化推荐系统经过二十多年的发展,在学术上涌现出大量的研究成果,在商业上也有广泛的使用。目前用户在访问电商网站、视频音乐等多媒体网站以至于问答类网站时,都会自动展示相关推荐,而不需要用户重复搜索、筛选的枯燥工作,提升效率的同时也提高了用户体验。对于电商网站而言,个性化的推荐让用户更有可能购买关联产品,提高销售业绩;对视频等内容类网站而言,个性化的推荐则可以使用户有兴趣浏览更多内容进而提高用户的停留时间。目前为止,对于推荐系统的研究多停留在提高推荐算法效率或者准确性的阶段,而忽视了用户的本质是一个人,每个人会在多个网站产生数据,因此能够融合多个网站域数据的跨域推荐系统成为了新的研究热点。跨域推荐系统迁移用户在源平台上的数据到目标域上,从而提高目标域中推荐的准确性,缓解单域推荐系统的数据稀疏、冷启动等问题。跨域推荐系统的实现有多种技术手段,包括使用矩阵分解的方法、使用迁移学习将源领域知识迁移到目标域的方法、使用聚类以及人工神经网络将源领域知识迁移到目标域的方法等等。以上方法都在特定领域取得了一些成果,本文主要关注不同域之间的交叉用户,将不同域之间看似没有关联的用户联系起来,并将用户在原始域中积累的数据使用到目标域中用于推荐,力求在数据稀疏的情况下为交叉用户提供更精确的推荐。本文在跨域推荐系统方面取得了如下成果:1.提出交叉用户的概念,即同一个人在两个不同网站上需要注册两个用户,这种用户称之为交叉用户。在现实生活中,我们会发现如果两个人对某一领域有相同的喜好,那么在相似领域中他们也会有同样的意见。如果可以识别出交叉用户,将多个域的用户对应到一个人,则可以由数据丰富的域得到两个人的相似度,然后在数据稀疏的域中应用这种相似度计算推荐,从而得出准确的推荐项目。2.单域推荐系统的用户相似度计算公式均只使用了一个域中的数据,而如果想使用其他域中的数据共同计算相似度,又会因为用户的评分体系有很大差别,无法直接使用。在本文中提出了一种基于皮尔逊相关系数的跨域用户相似度计算公式,对来自多个域的数据进行归一化处理并加入到公式中,从而提高最后用户相似度计算的准确性,并由此设计了一种基于交叉用户的推荐算法。3.为解决交叉用户识别的问题,本文构建了一套基于Cookie的交叉用户身份认证系统。能够标识交叉用户后,本文提出了基于交叉用户的跨域推荐系统。最后使用线上数据对所构建的跨域推荐系统进行了离线实验验证,实验结果表明本文提出的跨域推荐系统在解决用户冷启动方面确实有良好的效果。新用户初次访问获得的推荐有针对性,体现了用户的一部分兴趣。同时在目标域数据稀疏的情况下,本文提出的系统也可以给出更加准确的推荐。