个性化推荐技术中的协同过滤算法研究

被引量 : 240次 | 上传用户:w_r_c_h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络与信息技术的飞速发展,互联网为用户提供越来越多的信息和服务,用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据,即所谓的信息超载问题。面对海量的网络资源,个性化推荐系统能够及时跟踪用户的需求变化来自动调整信息服务的方式和内容,是一种极具潜力的解决信息超载的服务技术。协同过滤技术是目前推荐系统中最成功和应用最广泛的技术,在理论研究和实践中都取得了快速的发展,它根据用户的历史选择信息和相似性关系,收集与用户兴趣爱好相同的其他用户的评价信息来产生推荐。然而,传统的协同过滤算法面临数据稀疏、用户相似性难以度量、实时性和可扩展性差等方面的挑战,影响了推荐系统的质量。本文针对这些问题,对协同过滤算法进行了相应的改进,主要工作如下:1)针对传统相似性度量方法在用户数据稀疏和小邻居集下度量不准确问题,提出了一种基于信息熵的相似性度量方法。该算法首先计算用户间评分的差异,而后通过该差异的加权信息熵来衡量用户评分的相似程度;同时在计算用户相似度时还考虑用户间共同关注圈的大小,用户关注圈交集越大,相似性权重越大。实验结果表明,在数据稀疏程度不变的情况下,该相似性度量方法缓解了传统方案在稀疏数据和小邻居集下的相似度度量不准确问题,提高了推荐的精度。2)针对传统的协同过滤技术在产生推荐时只考虑用户-项目评分信息而易受数据稀疏影响的问题,引入项目属性信息,提出了一种基于评分相似性和项目属性相似性的混合协同过滤算法。首先,通过项目属性信息设计了一种基于项目属性偏好的用户相似性度量方法,该方法符合用户间的真实关系,同时也能够有效地缓解用户评分稀疏的问题。而后在衡量用户相似性时,综合考虑用户评分的相似性和用户对项目属性偏好的相似性,并通过一个权值w来控制两者的重要程度;实验结果表明,在不同稀疏程度的数据上,该算法获得了比传统相似性计算方法更好的推荐精度,且数据越稀疏性能提升越明显。3)针对基于内存的协同过滤算法在线计算量较大且可扩展性较低的缺点,提出了一种基于SVD矩阵填充技术的K-means聚类协同过滤算法。传统的基于聚类的协同过滤算法由于数据的高维稀疏往往预测精度非常低,因此,本算法首先利用SVD降维策略提高数据密度,得到一个没有缺失值的评分矩阵,而后利用K-means聚类在填充完整的数据上对用户进行聚类,从而对完成对测试集上未知评分进行预测。该算法利用用户与项目之间的潜在关系克服了稀疏性问题,同时保留了聚类方法实时性好、可扩展性强的优点。实验结果表明,相对于传统的Pearson协同过滤,基于SVD协同过滤和基于K-means的协同过滤,该算法获得了更好的预测性能,同时具有良好的可扩展性。4)针对单个模型做协同过滤推荐时精度较低的问题,提出了一种改进的自适应AdaBoot.RT集成学习算法,首先利用梯度下降法最小化用户评分的误差函数来构造基类弱回归算法,而后利用一种改进的AdaBoost.RT集成学习方法进行建模。在改进的AdaBoost.RT算法中,用一种带统计特性的偏差系数α来代替原算法中的相对误差参数φ,α能够根据预测误差的情况进行自适应调整,从而使样本权重的调整更加符合预测结果。实验结果表明,该集成学习算法能够显著地提高单个模型的推荐精度。
其他文献
当前,我国资本市场快速发展,取得的成就备受瞩目,然而伴随着快速发展,我国上市公司会计舞弊的现象也是愈演愈烈。上市公司会计舞弊已经严重阻碍和制约了我国社会经济发展,这
面对市场经济条件下科技期刊的改革与创新,科技期刊编辑必须具备5大意识,即创新意识、特色意识、质量意识、责任意识、服务意识,才能保证期刊良性发展。
华北是全球古老克拉通遭受破坏最明显和最典型的地区.自国家自然科学基金委员会设立"华北克拉通破坏"研究计划以来,通过不同学科间的有效交叉融合,围绕该克拉通破坏的时间、
医巫闾山地区北北东向展布的韧性剪切带形成于伸展环境下,剪切带先后经历的高温韧性变形和低温脆-韧性变形,分别形成了医巫闾山高温伸展型韧性剪切带和瓦子峪低温伸展型韧性
面对日益严重的渤海环境问题,我国自本世纪初进行了大规模的整治行动,但效果并不明显。究其根本,海洋环境的整体性特性与现存管理体制的分割性存在严重矛盾。纵然学界针对这
通过目前园林景观设施在开放型公共绿地中设置的现状进行调研,总结景观设施设置的特点,找出其现在存在的问题,提出了解决问题的对策。本文着重提出整体性原则,强调舒适度的实
环境监测的工作关系到环境质量分析、污染源调查、污染事故界定及污染纠纷仲裁等多个方面,是改善环境质量,为环境管理服务的重要基础,因此提高环境监测数据质量具有重要的现
作为支持社会经济发展的金融部门,商业银行的地位日益重要。但同时,作为盈利性的市场化企业,商业银行在激烈的竞争中也越来越关注自身的盈利能力。但目前的研究显示,世界范围
近年来全国电视媒体改革可以说是风起云涌。一方面中央台强势布局,形成了高压的态势。继去年中央电视台全面整合的大动作以后,今年9月1日,中央电视台的第一套节目又进行了再
目的:探索适合于中国数字人数据集特点的图像配准,彩色图像分割以及三维重建方法。方法:首先基于中国数字人连续断层图像的4个定位杆坐标值,对断层图像进行射影变换,消除其射影失