论文部分内容阅读
最近一些年来互联网行业在不断地扩张,大批量的数据无时无刻被互联网这个大机器生产出来。对于用户来说大量无价值和有价值的信息全部混杂在海量数据当中,使用一般的收集信息的方式把对用户有价值的信息从巨量数据中快速提取出来是相当有难度的。推荐系统是解决上述问题的技术手段之一,也是最近的研究热点。目前比较流行的推荐算法有基于内容的推荐、基于模型的推荐、协同过滤等。针对目前实际应用的推荐系统存在的冷启动、稀疏性和实时性等问题,本文选取基于聚类的协同过滤算法作为主要研究对象,并把谱聚类、用户偏好矩阵与混合蛙跳算法融合进来,提出了两种改进的协同过滤推荐算法。本文的具体工作如下:1.分析了几种经典聚类算法,由于谱聚类具有易于实现、性能优越、对稀疏数据聚类效果更理想等优点,因此选取了谱聚类作为主要研究的聚类算法。在标准谱聚类的基础上,本文改进了一种最大距离积的谱聚类算法MDP-SC算法,克服了谱聚类初始簇心不稳定的问题。在MDP-SC算法的基础上,加入了用户兴趣偏好矩阵与基于物品相似度的Weighted Slope One预填充算法,从而形成本文的第一个推荐算法PUM-CF算法。最后,使用UCI标准数据集对改进后的聚类算法进行了实验分析,使用MovieLens数据集对推荐算法进行了测试分析。2.分析了传统混合蛙跳算法,针对该算法存在的收敛速度不够快、容易早熟收敛等问题,提出了一种正态分布变异的优胜劣汰混合蛙跳改进算法NVF-SFLA算法,并详细介绍了该算法求解最近邻问题的步骤,为下面与协同过滤结合打下基础。结合改进后的谱聚类算法、改进后的蛙跳算法与协同过滤算法给出了第二个推荐算法PUMS-CF算法。最后,使用标准函数与MovieLens数据集分别对改进后的混合蛙跳算法和推荐算法进行了实验分析,验证了算法的有效性。3.设计并且搭建了一个简单的个性化电影推荐平台,把本文改进的推荐算法PUMS-CF算法作为核心推荐模块,给出了详细的设计步骤与最终结果。