论文部分内容阅读
计算机和互联网的快速发展改变了人们的生活方式。从前,人们在现实中进行日常生活交流。现在,人们在互联网上进行社交生活。互联网的普及和应用使互联网记录了大量的数据,海量的数据使得人们难以快速选择出自己感兴趣的信息,这就是“信息超载”问题。作为一种信息过滤工具,推荐系统因其为用户提供准确和个性化的推荐得到了广泛的应用。如今,使用推荐系统的用户数量越来越多,如果一个没有任何历史行为数据的新用户进入推荐系统,该如何使其获得推荐以及如何对其进行评分预测?对于考虑时间信息的基于网络推荐系统存在新用户无法推荐问题,本文研究了在网络中新增用户节点对推荐效果影响。进一步,使用上述研究结果在评分矩阵为新用户填充评分,本文研究了填充评分对新用户评分预测的影响。本文主要工作如下:(1)在考虑时间信息的基于网络推荐系统中,测试集中有一部分用户不存在于训练集中,本文视这部分用户为新用户。为了使新用户获得推荐,本文提出在训练集用户-对象二分网络中添加虚拟新用户节点,并为新用户添加连边。针对新用户连边添加问题,本文提出三种方案:第一种是与训练集中小度用户连接到的对象相连接,小度用户是从度属于1至20的所有用户中随机选取;第二种是与训练集中度用户连接到的对象相连接,中度用户是从度属于平均值减2到平均值加2的用户中随机选取;第三种是与训练集大度用户连接到的对象相连接,大度用户是从度最大的50个用户中随机选取。基于MovieLens1M和MovieLens100K数据集,应用六种基于网络推荐算法,即CN、AA、Salton、Sorensen、MD、HHM算法,本文比较了三种连边添加方案对推荐效果影响,发现第一种方案的推荐准确度、多样性和新颖度更好。(2)进一步,使用第一种方案在训练集中为新用户填充评分,即为新用户填充训练集不活跃用户感兴趣的对象真实评分,研究了新用户评分预测问题。通过应用基于人口统计信息的协同过滤算法(Demographic Collaborative Filtering,DCF)、SOREC方法,探讨了新增评分的DCF(Newly added ratings DCF,RDCF)和新增评分的基于用户混合协同过滤算法(Newly added ratings User-Based Hybrid Collaborative Filtering,RUHCF),新增评分的SOREC方法(Newly added ratings SOREC,RSOREC),发现新增评分算法的预测准确度更高。综上所述,在考虑时间信息的基于网络推荐系统中添加新用户节点,并将新用户与小度用户连接到的对象相连接,这样能使推荐准确度、多样性和新颖度更优。在训练集评分矩阵为新用户填充不活跃用户感兴趣对象的真实评分,这样能使新用户的评分预测准确度更高。