论文部分内容阅读
伴随着互联网技术的迅猛发展,使人们获取信息的方式发生着前所未有的改变,只要具备相应的条件就可以较方便从互联网上面获取丰富的资源信息,其给用户带来便捷的同时也面临着新的问题,那就是“信息过载”问题出现。然而推荐系统的出现可以有效解决此类问题,它能够根据用户的历史行为数据主动为其推荐所偏好的数据。在推荐系统中隐语义模型是一个较年轻的推荐算法,目前其在很多领域得到了应用,但是该模型在实际的应用中仍然还有一些缺陷值得我们去深入研究。首先,传统隐语义模型推荐算法存在冷启动问题以及面对用户历史评分数据过于稀疏导致了推荐精度下降的问题。其次,随着用户和物品规模不断的增长,推荐系统需要处理的数据量变得越来越大,使得传统隐语义模型推荐算法面临着扩展性较差的问题。因为该模型推荐算法中的参数要经过不断迭代与更新,所以在时间消耗以及计算量方面都比较大。为了解决传统隐语义模型推荐算法存在的问题,本文在该模型的基础上做了相应的改进,有效解决冷启动以及数据稀疏性所带来预测准确度下降的问题。为了使改进后隐语义模型推荐算法有较好的扩展性,本文通过分布式环境使推荐算法并行化来解决此问题。本文主要研究工作如下:(1)针对传统隐语义模型存在冷启动以及在面对数据稀疏性所带来预测精度下降的问题,因此本文对该模型进行了相应的改进。通过将用户的自身特征属性信息融合到传统的模型中去,当用户评分数据存在稀疏或者极端稀疏时,可以利用用户的自身特征属性来获取邻居用户的评分数据,然后基于邻居用户的评分数据来为该用户做出相应的推荐结果。最后实验结果验证了改进后的算法有效解决数据稀疏性所带来预测准确性下降的问题。(2)为了使改进后隐语义模型推荐算法在处理大量数据时有着较好的扩展性,本文提出一种在spark分布式环境中使推荐算法并行化的解决方案。为了验证改进后推荐算法在分布式环境中面对大量数据计算时是否有较好的扩展性,进而在不同大小的MovieLens数据集上面实验,实验结果验证了改进后推荐算法在spark分布式环境运算中有着不错的扩展性。(3)基于本文改进后的隐语义模型为核心,然后设计一个基于spark大数据平台的原型推荐系统,最后在该原型系统的前端界面完成了相关的功能测试。