基于支持向量机回归的协同过滤相似度优化方法

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:mengminyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 在基于属性相似性的协同过滤算法中,项目属性之间相似性的度量是整个算法的关键。现有算法在计算项目属性相似度时忽略了项目属性之间的非线性关系,导致相似性度量不准确,无法保证项目推荐精度。针对这一问题,本文提出一种基于支持向量机回归的协同过滤相似度优化方法,该方法利用支持向量机回归算法来构建项目属性相似度模型,解决项目属性的非线性关联问题,改善项目属性相似度计算。实验结果表明,优化方法计算出的项目相似性更准确,显著提高了系统的推荐质量。
  [关键词] 支持向量机回归;项目属性相似性;协同过滤
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2015. 05. 109
  [中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2015)05- 0227- 04
  0 引 言
  协同过滤推荐是当前最成功的推荐技术之一[1],根据过滤操作对象的不同,协同过滤算法可以分为基于用户(User-based)[2]和基于项目(Item-based)[3]的算法。User-based协同过滤算法随着数据的不断增多,要从大量用户中寻找最近邻居用户的问题成为推荐系统发展的瓶颈,而Item-based协同过滤算法通过将计算用户之间的相似性转换为计算项之间的相似性的方法,有效地解决了这一问题。在Item-Based协同过滤算法中,项目之间相似性的度量是否准确,直接关系到整个推荐系统的推荐质量。而实际上,由于系统用户评分数据的极端稀疏性,传统的相似性度量方法存在着一定的弊端,系统的推荐精度往往会很低。为了提高系统推荐精度,一些研究者们对项目相似性计算方法进行了改进。根据项目属性相似度和用户評价相似度,计算项目之间的综合相似度,但项目属性相似度的计算公式只简单考虑两个项目间相同的属性数,未考虑项目属性的重要性差异。因此将项目属性相似度和项目评分相似度的线性组合作为最终邻居相似度,在计算项目属性向量的相似度时,使用加权计算来解决项目属性的重要性差异问题。以上算法的核心就是用基于项目属性的相似性来改进传统Item-Based协同过滤中目标项目的最近邻居项目集的查找,项目属性相似度的计算是这类改进方法的关键。但是,目前基于属性相似性的Item-Based协同过滤算法将项目属性之间的复杂关系进行了简单的线性化处理,忽略了项目属性的非线性关系,在一定程度上影响了算法的效能。
  Vapnik 等人根据统计学习理论提出的支持向量机(Support Vector Machine,SVM) [7] 方法具有诸多的优良特性,近年来引起了广泛的关注,SVM方法最早是针对模式识别问题提出的,Vapnik通过引入不敏感损失函数,得到了用于回归估计的SVM方法,称为支持向量机回归 (Support Vector Regression,SVR) [8],SVR方法被引入非线性回归领域,显示了其巨大威力[9,10]。本文利用支持向量机回归算法的回归能力,解决项目属性的非线性关联问题。实验结果表明,本文所提的算法大幅提高了推荐算法的精确度。
  1 支持向量机回归
  一般的回归问题可表述为:给定l个训练样本,学习机从中学习出输入、输出变量之间的关系(依赖关系、映射关系、函数关系) f(x)。考虑一个训练样本数据集{(x1,y1),…,(xl,yl)}。对于i=1,…,l其中xi∈Rn每个代表了样本的输入空间,存在一个目标值yi∈R与其相对应。回归问题的思想就是从中学习出一个函数,能够精确地估计未来值。
  在公式(5)中,点积可以用核函数k(xi,x)来代替。核函数能够在不知道变换具体函数的情况下,使用低维空间的数据输入来计算高维特征空间中的点积。通常使用的核函数包括线性函数、多项式函数以及RBF等。
  2 基于支持向量机回归的相似度优化方法
  2.1 项目的特征属性
  一般来说,推荐系统至少存在3个基本数据表,一个用来记录注册用户信息, 一个用来记录项目信息, 还有一个记录用户的评分信息(记为用户评分表)。通过对记录项目信息表的整理可以得到项目特征属性矩阵A。假定接受评分的项目数是n, 每个项目挑选k个具有代表性的属性描述, 在此将其抽象为{ Attr1, Attr2,…, Attrk}。见表1,项目属性矩阵A(其中1表示某个项目具有某项属性,0表示某个项目不具有某项属性) ,项目特征属性的抽取可以从项目的简介网页中提取,或者从推荐系统中用来记录项目信息的表中整理得到。
  3 实验及分析
  3.1 数据集
  数据集取自MovieLens数据集[11],该数据集由明尼苏达大学GroupLens研究小组通过MovieLens网站(http://movielens.umn.edu)收集,包含了943位用户对1 682部电影的100 000条评分数据,每位用户至少对20部电影进行了评分,所有电影分属于19种电影类别。为了分析实验数据稀疏性对算法性能的影响,本文从MovieLens数据集上随机抽取100、200、300位用户的评分数据组成3个数据集,分别记为TDS100、TDS200、TDS300。
  3.2 评价标准
  评价推荐系统推荐质量的度量标准采用统计度量方法中的平均绝对偏差MAE(Mean Absolute Error)进行度量。MAE通过计算预测的用户评分与实际的用户评分之间的偏差来度量预测的准确性,MAE越小,推荐质量越高。
  3.3 实验结果及分析
  实验以传统Item-based协同过滤(Item-based CF)、基于属性相似性的Item-based协同过滤(Item feature-based CF)[3]以及基于属性线性加权的Item-based协同过滤(Item feature weighted -based CF)[4]为对照,检验本文提出的算法的有效性,计算各种推荐算法的MAE。实验中最近邻居个数k取30, 推荐集元素个数r取10,项目相似性平衡参数α取0.6,实验结果见表2。   由表2可知,Item feature-based CF方法優于Item-based CF方法,说明在计算项目相似性的过程中考虑项目属性相似性,可以有效改善传统协同过滤算法中面临的“稀疏性”问题,提高推荐算法的推荐质量。Item feature weighted -based CF方法优于Item feature-based CF方法的性能,说明通过加权计算可以解决项目属性重要性不同的问题,能有效改善推荐方法的性能,而本文提出的方法的MAE值较Item feature weighted -based CF方法的MAE值有大幅度的降低,说明加入支持向量机后明显优于线性组合的特征加权,通过支持向量机回归方法改善项目属性相似性的计算,能使得项目的相似性计算更加准确,进一步提高方法的性能。
  4 结束语
  本文提出了一种基于支持向量机回归的协同过滤相似度优化方法,该方法在计算项目属性相似性时考虑了项目属性之间的非线性关联问题,使得项目属性的计算更加合理。实验结果表明,本文提出的优化方法能够获得更准确的项目相似性,在一定程度上提高了系统的推荐质量。
  主要参考文献
  [1] D Goldberg, D Nichols, B M Oki, et al. Using Collaborative Filtering to
  Weave an Information Tapestry[J]. Communications of the ACM,1992,35
  (12):61-70.
  [2]P Resnick, N Iacovou, M Suchak, et al. GroupLens: An Open Architecture
  for Collaborative Filtering of Netnews[C]. Proc. of the ACM CSCW′94
  Conference on Computer Supported Cooperative Work, ACM,1994:
  175-186.
  [3]B Sarwar, G Karypis, J Konstan, et al. Item-based Collaborative Filtering
  Recommendation Algorithms[C]//Proceedings of the 10th International
  World Wide Web Conference, 2001.
  [4] 彭玉,程小平.基于属性相似性的Item-based协同过滤算法[J].计算
  机工程与应用,2007,43(14):144-147.
  [5] 庄永龙.基于项目特征模型的协同过滤推荐算法[J].计算机应用与软
  件,2009,26(5):244-246.
  [6] 张忠平,郭献丽.一种优化的基于项目评分预测的协同过滤推荐算法
  [J].计算机应用研究,2008,25(9): 2659-2683.
  [7] V N Vapnik.Statistical Learning Theory[M].NeuYork,NY:Wiley,1998:35-
  53.
  [8] V Vapnik. An Overview of Statistical Learning Theory[J].IEEE Transactions
  on Neural Networks,1999,10(5):988-999.
  [9] Smola, Scholkopf. Learning with Kernels[M].Cambridge,MA: MIT Press,
  2002.
  [10] Smola,Scholkopf. A Tutorial on Support Vector Regression [J]. Statistics
  and Computing, 2004(14): 199-222.
  [10] Miller B N,Albert I,et al. Movie Lens Unplugged: Experiences with an
  Occasionally Connected Recommender System[C]//Proceedings of the
  International Conference on Intelligent User Interfaces,2003.
其他文献
近日,机器人实验室RoMeLa推出了一款能跑、能跳,还会空手道的四足机器人——AlPHRED 2。与其他的四足机器人不同,这款机器人的四足不分前后,而是对称排布在身体周围,能向各个方向走动。这款机器人共有四条腿,可以实现四足、三足和两足的行走模式,三足或两足模式下空出来的腿可以充当胳膊,完成空手劈木板等动作。  ALPHRED 2的前身是在IROS 2018上亮相的ALPHARED,两款机器人的腿
[摘要] 交叉学科专业的建设是新产业背景下各大高校学科发展的重要方向。本文以信息管理与信息系统专业为例分析了目前我国高校交叉学科专业建设存在的主要问题,并在此基础上提出了相应的对策。  [关键词] 交叉学科; 专业建设; 对策  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 14. 076  [中图分类号] G642 [文献标识码]
[摘 要] 透明度是全球资本市场面临的共同问题,也是困扰资本市场发展的难题之一。资本市场上违背透明度原则,频繁披露虚假信息等财务欺诈行为严重扰乱了资本市场秩序,并侵害了投资者的利益,尤其是力量比较薄弱的中小投资者的利益。因此,改善资本市场信息披露现状,加强透明度建设显得尤为重要。本文分析了财务信息透明度建设的重大意义及影响财务信息披露透明度的因素,提出改进的意见。  [关键词] 资本市场;信息透明
[摘 要]根据“项目引导、任务驱动”教学思想,基于真实的工程项目设计工作任务结构,按照任务的工作过程来重新构建教材知识体系,通过“任务描述、相关知识、任务实施”的“三段式”流程进行教材的工作任务开发。同时,本文提出的项目课程教材建设方法,已经有效的应用于“计算机应用项目化教程”教材的编写,对其它项目课程教材建设也有一定的借鉴意义。  [关键词]项目化教材;工作过程;项目引导;任务驱动  doi:1
[摘 要]大数据也可称为巨量资料,其规模巨大,大到无法在合理时间内利用主流工具将资料整理为企业经营决策所需的信息。大数据技术是通过一定技术整理和归纳搜集到的资料,并有效发现数据间的关联性,分析得出最终数据,从而帮助决策者做出正确的经营决策。大数据包括微观数据和宏观数据,能为企事业单位财务数据的搜集带来较大便利性,但也会衍生出一系列问题。本文深入分析大数据技术对财务管理的影响,以确保财务管理的安全性
[摘 要]“研究性教学”是一种全新的教学理念和教学模式,其注重发挥学生的主体作用,培养学生的创新和研究能力,使学生满足当今社会对人才的需求。本文从“研究性教学”的特点、理论依据、施行的目的、意义及推进“研究性教学”的基本要求和具体方法等方面对“研究性教学”进行深入的探讨和总结。  [关键词]研究性教学;创新思维;本科  doi:10.3969/j.issn.1673 - 0194.2015.16.
[摘要]实践教学在国家倡导的工学结合教学模式中发挥着重要的作用,如何结合会计专业的特点开展实践教学,全面提升会计人才培养质量是许多高职院校关注的焦点。本文通过分析现阶段我国各高职院校会计实践教学存在的问题,以笔者所在学校为例,提出了具有较强操作性和推广价值的仿真会计实践教学模式。  [关键词]工学结合;实践教学;仿真  doi:10.3969/j.issn.1673-0194.2013.02.05
[摘 要]人口老龄化使养老成为严峻的社会问题,机构养老是解决这一问题的重要途径。不同类型的养老机构入住率差别大,民办养老机构入住率低是现阶段的普遍现象。本文在调研基础上分析影响民办养老机构入住率的因素,为民办养老机构提高入住率提供建议。  [关键词]入住率;民办;养老机构;人口老龄化  doi:10.3969/j.issn.1673 - 0194.2015.16.175  [中图分类号]D669.
[摘 要] 基于GONE理论,从贪婪、需要、机会、暴露4个因素入手詳细剖析万福生科的舞弊动因,并结合舞弊动因理论,从不敢、不能、不愿3个层次提出了上市公司舞弊风险的防范对策,具有一定的现实意义。  [关键词] GONE理论;万福生科;舞弊动因;防范对策  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2015 . 13. 008  [中图分类号] F239
[摘 要]能源公司在经濟发展中扮演着非常重要的角色,但近几年来能源企业面临困境,其中应收账款就出现了很大问题。本文以神华集团为例分析了应收账款对企业的影响,并提出企业应当把应收账款控制在适度的范围内从而降低企业风险的措施。  [关键词]能源企业;应收账款;控制;风险  doi:10.3969/j.issn.1673 - 0194.2016.24.004  [中图分类号]F272;F275 [文献标