论文部分内容阅读
与过去信息的严重匮乏状况相比,当前互联网的快速发展,使得数据量急剧膨胀,而面对如此海量的信息数据,衡量一个信息系统优劣的重要指标就是是否能对信息进行精确的筛选和过滤。推荐系统作为一类为用户提供良好体验的信息系统,其核心功能是对海量信息数据进行筛选和过滤,并能够给用户展现其最关注的信息。因此解决信息筛选问题,是推荐系统最重要的问题之一。推荐系统可以解决信息过载,然而随着推荐系统规模的不断扩张,用户-项目评分矩阵表现出极端稀疏性,导致基于传统相似性度量方法的协同过滤推荐算法的推荐质量严重下降。本文针对推荐系统中评分矩阵的稀疏性进行研究,引入用户特征信息,并结合数据预处理、相似度加强和混合预测等方法,以期解决数据稀疏性给推荐系统带来的精度下降问题。本文的研究工作和创新点包括: (1)在MovieLens数据集上,对用户评分情况、共同评分比例等信息进行了统计分析,从理论和数值两方面研究了评分数据的稀疏性特征,讨论了稀疏性问题给推荐系统性能带来的影响。 (2)提出了改进的相似度加强算法,使用SVD对初始评分数据做预处理,进而提高用户和项目的初始相似度。通过统计分析用户和项目的共同评分比重,将不同用户和不同项目间的共同评分比重与调参λ的乘积,作为初始相似度在相似度加强模型中的权重比例。在预测评分阶段,以共同评分权重混合基于用户的预测评分和基于项目的预测评分。将改进的模型在数据集上进行测试分析。结果表明,当λ取值1.6时,误差最低,最低平均绝对误差MAE达到0.7302。表明本文提出的改进的相似度加强方案可以提高推荐质量。 (3)提出了用户特征相似度模型,通过提取数据集中的用户信息数据并量化,采用基于比值的相似度算法,提炼用户特征模型,获取用户特征相似度矩阵,并加权到用户初始相似度上。数值分析结果表明,算法加入用户特征数据后,推荐误差降低了0.01左右,可以进一步提高推荐准确度,缓解稀疏性问题。 (4)实验阶段采用MATLAB仿真平台,导入MovieLens数据集中用户评分信息合成用户-项目评分矩阵,导入用户特征信息,用以提取并量化,提炼用户特征模型。首先使用SVD做数据预处理,计算初始相似度,开始算法迭代并混合预测未评分项。结果表明,本文提出的改进的相似度加强算法可以进一步解决推荐系统稀疏性问题,结合用户特征模型,可以更好的提高推荐质量。