论文部分内容阅读
随着信息科技的不断变革和经济一体化逐步实现,互联网也进入了高速发展的行列。2018年5月在Code大会上发布的互联网趋势报告显示,近些年来网络用户呈爆发式增长,2017年全球互联网普及率达到了49%,预计于2018年将增至50%。据统计,在全球大数据进入加速发展时期后,全球数据总量每年将以50%的速率增长,全球数据量将在2025年增至176ZB。面对如此海量的数据信息,如何缓解信息过载的问题从而快速、高效地帮助用户获取有用的信息是当今数据科研方面所面临的重要挑战之一。推荐系统(Recommender Systems,RS)作为可以有效缓解信息超载问题的方法之一,通过剖析用户与项目之间的二元映射,为目标用户在海量信息数据中找到其可能喜爱的个性化项目,并生成推荐列表。基于标签信息的个性化推荐技术利用用户对项目的标记信息为其推荐可能偏好的物品。然而,现有的基于标签的推荐方法仍受到以下与数据特征相关的挑战与限制:1)在为目标用户个性化推荐时往往倾向于给使用频率较高的标签赋予较大的权重,导致权重偏差,降低了推荐结果的新颖性和准确性;2)用于训练模型的源域数据集与用于检验模型的目标域数据集应满足独立同分布的假设;3)具有标签的源域数据集通常十分稀疏且难以获得,必需拥有足够多的且可用的训练数据才能训练出优秀的推荐模型。针对上述问题,本文主要贡献如下:1.针对权重偏差问题,提出了一种标签熵特征表示的协同过滤个性化推荐算法。首先利用标签信息熵度量标签的不确定性,对热门标签进行削弱;然后利用三分图形式描述0)-(62)-0)8)之间的关系,构建基于标签熵特征表示的用户与项目的特征表示,并通过特征相似度计算方法得到不同项目间的相似度;最后利用用户使用标签和项目相似性线性组合预测用户对项目的偏好值,并按照预测评分进行排序,生成最终推荐列表。在Last.fm数据集上的实验结果表明,该方法能够提高推荐结果的准确性和新颖性,满足不同用户的个性化需求。2.针对用于训练模型的源域数据集与用于检验模型的目标域数据集应满足独立同分布的假设及数据稀疏性问题,提出了一种基于标签特征信息迁移学习的推荐算法,将从源域数据中学习得到的用户及项目特征信息迁移到目标领域的数据中。首先在较为稀疏的源域数据集中通过标签构建项目的特征表示,根据用户选择项目集的行为数据计算用户的特征表示;然后,在较为稠密的目标域数据集中根据选择项目的用户群体来度量项目的特征;之后,在目标域数据集上对用户、项目的特征表示进行平滑处理,消除不同用户评分尺度及不同数据集评分范围所带来的影响;最后将用户、项目隐性特征应用到标签熵特征表示的协同过滤个性化推荐算法中,设计与构建了基于标签特征信息迁移学习的推荐方法,完成目标项目推荐。在Movie Lens数据集上的实验结果表明,该方法可以有效缓解数据稀疏性问题,提高了推荐的准确性。3.基于上述提出的推荐算法,本文设计与实现了一个音乐推荐应用系统。基于Spring、My Batis以及Spring MVC框架,采用Java、Python、HTML以及JQuery技术作为开发语言。利用Python封装的接口计算用户数据,将标签矢量化,根据用户以及项目使用标签的历史记录,构造用户及项目的特征表示和项目相似性,为用户推荐其可能会感兴趣的音乐。通过在Java中集成Python,调用Python脚本文件,为用户动态返回推荐结果。该系统用户只需要提供目标用户的ID,系统后台将根据用户的行为数据,最终为目标用户生成其可能喜爱的Top-5音乐推荐。