面向稀疏数据的推荐模型研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yilong_hongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速普及和发展促使数据量呈爆炸式的增长。协同过滤推荐技术通过分析用户属性、项目属性、用户与项目的交互记录挖掘用户的兴趣,主动提供用户可能感兴趣的内容,在缓解“信息过载”问题上起到了重要的作用。用户评分是协同过滤推荐技术的数据基础之一。通用的评分体系有单准则和多准则两种,前者只有单一总体评分,后者除了总体评分,还提供用户在各个准则上的评分。随着网站发展规模越来越大,评分数据稀疏性问题将变得越来越严重,导致基于评分数据的协同过滤推荐系统的推荐质量急剧下降。为了缓解评分数据稀疏性问题带来的消极影响,学者们展开了一系列的协同过滤算法研究。针对单准则协同过滤评分数据稀疏性问题,很多学者提出引入辅助信息,例如使用用户社交关系、用户评论、标签信息等辅助信息对用户或者项目进行更具偏向性的刻画;多准则协同过滤中,对于评分数据稀疏性问题,学者们提出采用降维的方法,但是降维会损失数量相对稀少的原始评分,造成信息浪费;对于评分聚合问题,目前多是采用线性回归的方式,没有考虑到总体评分与各准则评分之间复杂的数据映射关系;对于项目排序问题,大多数学者基于评分预测的基础上,使用高评分项目作为推荐项目,但是预测评分高的项目不一定是用户感兴趣的项目,会忽略一些在用户心中拥有更高优先级的项目。基于以上分析,本文从评分数据稀疏性问题出发,对评分预测和项目推荐任务从以下三个方面展开研究:(1)针对单准则评分数据稀疏性问题,提出结合项目类型信息的评分预测模型(Rating Prediction Combined with Item Genres Information,RPIG)。通过提取用户对项目类型的偏好以及用户均分、项目均分、用户项目类型均分这三个辅助特征来缓解评分数据稀疏性问题带来的影响。将提取出来的辅助信息构造成训练样本集,使用GBRT模型拟合训练样本,预测用户对项目的评分。在Movielens 100K和Movielens 1M数据集上与相关研究成果进行对比实验,实验结果表明,所提出的RPIG模型能有效提高评分预测的准确度。(2)针对多准则评分数据稀疏性问题和评分聚合问题,提出基于可靠因子的多准则评分聚合模型(Multi-Criteria Rating Aggregation Based on Reliable Factors,MCRF)。考虑矩阵填充技术不损失任何原始信息,能降低多准则评分数据稀疏性问题对评分预测准确度的影响。使用融合的用户相似度预填充各准则评分矩阵,为了降低填充评分误差对用户相似度计算的影响,引入可靠因子来衡量预填充评分的可信度。分别采用两种方法聚合多准则评分:计算用户准则倾向和准则评分一致性,得到用户对准则的偏好权重,通过权重聚合多准则评分;使用GBRT回归模型拟合每个用户的多准则评分信息,预测总体评分。在Yahoo!Movies数据集的三个子数据集YM-20-20、YM-10-10和YM-5-5上与相关研究成果进行对比实验,实验结果表明,所提出的MCRF模型能有效提高评分预测的准确度。(3)针对多准则评分数据稀疏性问题和项目排序问题,提出基于度量学习的多准则推荐模型(Multi-Criteria Recommendation Based on Metric Learning,MCML)。基于距离反映偏好这一假设,度量学习技术将距离视为用户对项目的偏好。学习度量空间中用户到项目的距离,翻转距离得到预测评分,以填充各准则评分矩阵来缓解多准则评分数据稀疏性问题带来的影响。在填充过的各准则以及总体度量空间中,学习得到用户到项目的多组距离,对所有距离综合排序后给用户提供Top-N推荐列表。在Yahoo!Movies数据集的子数据集YM-20-20上与相关研究成果进行对比实验,实验结果表明,所提出的MCML模型能有效提高项目推荐的准确度。
其他文献
随着网络媒体的飞速发展,网民们利用网络不断沟通交流,使得网络语言也迅速发展起来,逐渐成为了人们不可缺少的一部分,也成为了研究者们研究的对象。不可否认的是,网络语言的发展极大地丰富了汉语言的表达,促进了汉语语言文字的发展,但同时也应当注意到,网络语言中充斥着一些不规范、不和谐、不健康的内容,例如,网络语言中的错别字、语言暴力、侮辱、色情等问题。因此,如何正确地分析网络语言中存在的问题,并及时检测、跟
随着法治进程的不断加快和高等教育的蓬勃发展,学生拿起法律武器捍卫自身合法权益与高校努力追求自主办学、学术自治之间的矛盾有愈演愈烈之势。从1998年第一起高校学位授予
随着云计算技术的飞速发展以及云系统的低成本、灵活和数据快速检索等诸多优势,越来越多的数据用户开始使用云的存储和搜索功能去共享大量数据。这样可以免去数据所有者自身
文化与科技融合主要是通过科技手段将资源形态的文化转化成价值形态的文化产品,它是传统文化产品创新和当代文化传播的重要路径。研究促进文化科技融合法律制度,对弘扬中华优
对于视觉功能相关的基因和药物筛查对于探究视觉功能障碍机理及修复手段具有重要意义。而对于基因和药物的筛查通常依赖于实验动物模型。斑马鱼由于其繁殖速度快,发育周期短,
随着我国互联网技术的发展,如今已走在世界前列。互联网经济在带来巨大经济利益的同时也导致互联网经营者之间不正当竞争事件频发。但我国当前并没有相关规制互联网不正当竞
在当前的工业界,GPU程序的开发和维护已经成为了重要的新平台。机器学习的任务在GPU平台上能够获得更加优秀的效果。CUDA(Computer Unified Device Architecture)是n Vidia开
消化内镜微创手术器械交互安全预警系统旨在对多器械消化内镜微创手术中手术钳器械操作力的安全性进行实时监控。系统主要由肿瘤分割、手术器械分割、手术钳末端位姿估计、手
中国古代经典《西厢记》为蓝本的各种艺术创作,为中国传统陶瓷绘画广泛借鉴和运用,甚至形成了一时的流行风尚,在江西景德镇大量生产,特别在清代至民国广泛运用于工艺品、家居
激光线结构测量系统通过线激光器作为主动光源照射至待测物体,再通过CCD或CMOS相机对待测物体表面反射激光条纹进行采集记录,对采集得激光条纹图像进行处理以提取待测物体的