论文部分内容阅读
在现代社会中,互联网正在飞速发展,日新月异。各类音乐网站和应用如雨后春笋般应运而生,并极大的方便了人们对于音乐的需求。然而,由于每个大型的音乐网站所收录的歌曲都有成千万上亿首,个体所容纳的信息严重过载,于是在如此海量的音乐信息中如何找到符合自己口味的歌曲便成为了一个让人们无所适从的问题。众所周知,传统的搜索引擎只适合应用于用户有明确的目标并且能够用准确的关键词来进行信息检索的情景中。而音乐是一个典型的具有长尾效应的物品----即每个用户的兴趣点各不相同且只会下载极少部分的歌曲,因而忽视了绝大部分的曲目。故而研究在浩瀚的音乐中快速、准确的获取用户感兴趣的音乐曲目的个性化音乐推荐便成为了一个热门的领域。目前常见的音乐推荐算法有基于内容(Content-based)的推荐算法和基于协同过滤(Collaborative Filtering)的推荐算法。基于内容的推荐算法能为用户推荐与他们过去的兴趣相似的歌曲,但由于其要求内容特征需有良好的结构性,并且要求用户的口味必须能够用内容特征形式来表达,因而在音乐推荐的应用上具有较大的局限性。而协同过滤推荐算法则是找到与目标用户有相同品味的其他用户,然后将这些相似用户过去喜欢的音乐推荐给目标用户。但由于音乐的数量过于庞大和新用户的不断涌入,协同过滤算法遇到了数据稀疏和冷启动的问题,这就使得其所推荐的歌曲在新颖性方面表现不佳。因此,本文提出了一种基于偏正有向图的音乐推荐算法,该算法利用用户评分记录,先创建出了一个以歌曲为节点、以偏好关系为边的偏好有向连接图;然后又创建出了一个以歌曲为节点、以不同歌曲之间的正相关关系为边的正相关加权邻接图。最后将上述两个图匹配后生成偏正有向图,并在此基础上通过利用香农所提出的信息熵的概念来最终获得Top-N首既准确度高且新颖的歌曲。本文采用豆瓣音乐的评分数据集,进行了基于偏正有向图的PPGB推荐算法和基于协同过滤的UBCF推荐算法的对比实验。实验结果表明,PPGB算法能够在保证有良好的准确度的同时,还能够获得新颖度的显著提升,并有效改善数据稀疏性和用户冷启动的问题。