论文部分内容阅读
互联网的快速普及和发展促使数据量呈爆炸式的增长。协同过滤推荐技术通过分析用户属性、项目属性、用户与项目的交互记录挖掘用户的兴趣,主动提供用户可能感兴趣的内容,在缓解“信息过载”问题上起到了重要的作用。用户评分是协同过滤推荐技术的数据基础之一。通用的评分体系有单准则和多准则两种,前者只有单一总体评分,后者除了总体评分,还提供用户在各个准则上的评分。随着网站发展规模越来越大,评分数据稀疏性问题将变得越来越严重,导致基于评分数据的协同过滤推荐系统的推荐质量急剧下降。为了缓解评分数据稀疏性问题带来的消极影响,学者们展开了一系列的协同过滤算法研究。针对单准则协同过滤评分数据稀疏性问题,很多学者提出引入辅助信息,例如使用用户社交关系、用户评论、标签信息等辅助信息对用户或者项目进行更具偏向性的刻画;多准则协同过滤中,对于评分数据稀疏性问题,学者们提出采用降维的方法,但是降维会损失数量相对稀少的原始评分,造成信息浪费;对于评分聚合问题,目前多是采用线性回归的方式,没有考虑到总体评分与各准则评分之间复杂的数据映射关系;对于项目排序问题,大多数学者基于评分预测的基础上,使用高评分项目作为推荐项目,但是预测评分高的项目不一定是用户感兴趣的项目,会忽略一些在用户心中拥有更高优先级的项目。基于以上分析,本文从评分数据稀疏性问题出发,对评分预测和项目推荐任务从以下三个方面展开研究:(1)针对单准则评分数据稀疏性问题,提出结合项目类型信息的评分预测模型(Rating Prediction Combined with Item Genres Information,RPIG)。通过提取用户对项目类型的偏好以及用户均分、项目均分、用户项目类型均分这三个辅助特征来缓解评分数据稀疏性问题带来的影响。将提取出来的辅助信息构造成训练样本集,使用GBRT模型拟合训练样本,预测用户对项目的评分。在Movielens 100K和Movielens 1M数据集上与相关研究成果进行对比实验,实验结果表明,所提出的RPIG模型能有效提高评分预测的准确度。(2)针对多准则评分数据稀疏性问题和评分聚合问题,提出基于可靠因子的多准则评分聚合模型(Multi-Criteria Rating Aggregation Based on Reliable Factors,MCRF)。考虑矩阵填充技术不损失任何原始信息,能降低多准则评分数据稀疏性问题对评分预测准确度的影响。使用融合的用户相似度预填充各准则评分矩阵,为了降低填充评分误差对用户相似度计算的影响,引入可靠因子来衡量预填充评分的可信度。分别采用两种方法聚合多准则评分:计算用户准则倾向和准则评分一致性,得到用户对准则的偏好权重,通过权重聚合多准则评分;使用GBRT回归模型拟合每个用户的多准则评分信息,预测总体评分。在Yahoo!Movies数据集的三个子数据集YM-20-20、YM-10-10和YM-5-5上与相关研究成果进行对比实验,实验结果表明,所提出的MCRF模型能有效提高评分预测的准确度。(3)针对多准则评分数据稀疏性问题和项目排序问题,提出基于度量学习的多准则推荐模型(Multi-Criteria Recommendation Based on Metric Learning,MCML)。基于距离反映偏好这一假设,度量学习技术将距离视为用户对项目的偏好。学习度量空间中用户到项目的距离,翻转距离得到预测评分,以填充各准则评分矩阵来缓解多准则评分数据稀疏性问题带来的影响。在填充过的各准则以及总体度量空间中,学习得到用户到项目的多组距离,对所有距离综合排序后给用户提供Top-N推荐列表。在Yahoo!Movies数据集的子数据集YM-20-20上与相关研究成果进行对比实验,实验结果表明,所提出的MCML模型能有效提高项目推荐的准确度。