基于组合推荐技术的音乐推荐引擎研究与实现

被引量 : 1次 | 上传用户:fc18597048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐的获取多种多样,从网络上获取已成为大多数人的首选。而匆忙的现代化生活以及庞大的网络资源,让很多人无暇去仔细搜索自己喜爱的音乐,并且大量适合用户的音乐没有机会被用户欣赏到。怎么快速挖掘用户喜好,帮用户找到自己所喜欢的音乐,就是音乐推荐引擎的主要作用。推荐算法是引擎的核心,算法的优劣决定了推荐的质量。基于内容的推荐研究很早就开始。本文针对音乐数据的独特性,进行了标签化处理,使其能应用在基于内容的推荐上,而基于内容的算法主要采用聚类算法。用传统的TF-IDF方法生成音乐文档向量来进行聚类,不仅效率低,聚类质量也不高。因此,本文采用另一种生成向量的算法,那就是用Simhash算法计算出物品的指纹特征值,再进行聚类。实验验证了此种方法运行效率高,聚类效果也好。另外,在推荐领域,协同过滤算法也是目前应用比较广的推荐算法。针对协同过滤推荐算法运算量大的特点,本文实现了在Hadoop平台上的基于用户的分布式协同过滤算法,优化用户相似矩阵和去掉热门和冷门项目偏好向量,并且简化整个流程。在实验中,和Mahout算法集上的基于项目的分布式协同过滤算法比较,在同等数据量的前提下,速度更快,推荐质量也没有降低。最后,本文搭建了一个B/S结构的音乐推荐引擎原型系统,整合离线推荐算法结果,并加入在线推荐功能,满足用户的实时需求,成为一个体验较佳的个性化推荐系统。本文的主要研究工作总结如下:1.对音乐进行标签化处理,加入权重,并对歌词分词过滤处理,采用Simhash算法生成二进制指纹特征值,而不是用传统的TF-IDF来生成向量表示音乐文档,在存储和计算量上都得到了优化。接着用K-means聚类算法对指纹特征值进行聚类,得出多簇相似的歌曲,实现改进的基于内容的推荐算法。2.对Mahout中基于项目的分布式协同过滤算法进行深入分析,发现项目矩阵无法准确表示项目相似性以及全部数据没有经过预处理等缺点,造成运算耗时过长且推荐效果差等问题。因此,本文提出改进后的基于用户的分布式协同过滤算法,优化用户矩阵,对数据进行预处理,并减少MapReduce作业数目,实现了高效的分布式协同过滤算法。3.后台离线整合两种算法的推荐结果,在线推荐模块实时优化用户的推荐列表,从而实现个性化音乐推荐引擎系统。为了增强了用户的体验,用MongoDB加速数据的存取,用Spring搭建高效的后台系统,用Bootstrap和HTML5增强前台页面的视听效果,使我们的系统能应用在实际需求中。
其他文献
<正>在当前的中学物理课堂教学中,科学方法的渗透、科学素养的提升已经越来越受到教师的重视.正如物理学本身一样,科学方法是在解决一个个实际问题中逐步形成的,而科学素养也
<正>在我国早期的秘书学专业课程体系中,文书学和档案管理学是分别设置的。文书学主要以文书现象和文书工作规律为研究对象,档案管理学主要以档案管理活动为研究对象。由于档
结合陕西华山化工集团有限公司复肥厂的生产实际,介绍了磷酸二铵(DAP)的造粒(成粒)机理,从造粒工序的原料、工艺和设备三方面分析了影响DAP造粒的各因素,从料浆中和度、含水
结合陕西陕化化工集团有限公司复肥厂磷酸二铵(DAP)装置生产的实际情况,阐述了在产能持续提高的前提下所采取的稳定萃取磷酸浓缩装置真空度、挖潜增产降耗的技改措施,包括将
本文讨论了话语标记语和话语的层次结构中所存在的一些争议性问题;提出话语(特别是话语标记语)的认知在很大程度上取决于语境与关联的互动;指出关联理论可以为现存的话语理解
<正>溃疡性结肠炎(ulcerative colitis,UC)是一种特发于大肠黏膜的慢性炎症和溃疡性病变,多累及直、乙状结肠,以腹泻、腹痛、黏液脓血便和里急后重为主症,发病率逐年上升,属
针对复合肥料磷酸铵产品总氮含量分析方法的局限性,介绍了国标对复合肥料和复混肥料的定义,分析了采用GB/T 10209.1-2008测定复合肥料磷酸铵产品总氮含量和采用GB/T 8572-200
本文运用政策科学的有关理论,从政策特点、政策功能和政策过程研究出发,从政策发展的角度提出了我国公路收费政策的四个发展阶段思想,分析了公路收费政策对于我国公路建设和公路